题目
大数据预处理的方法主要包括数据清洗、( )、数据变换和( )
大数据预处理的方法主要包括数据清洗、( )、数据变换和( )
题目解答
答案
数据集成,数据规约
解析
本题考查大数据预处理的主要步骤。预处理是数据分析前的关键环节,需掌握各步骤的核心目的和顺序。
关键知识点:
- 数据清洗:处理缺失值、异常值,保证数据质量。
- 数据集成:整合多源数据,消除冗余。
- 数据变换:统一数据格式或标准化(如归一化)。
- 数据规约:减少数据规模,提升分析效率。
破题关键:明确各步骤的逻辑顺序,尤其注意数据集成需在清洗后、变换前完成,而数据规约通常作为最后一步。
第一空
数据清洗后需整合多源数据,消除重复或冲突,因此填数据集成。
第二空
数据变换后需减少数据量或简化结构,因此填数据规约。