题目
2.[判断题]在预训练阶段,研究人员发现数据质量比数量更重要,包含高质量内容(如维基百科、学术论文)的数据集,即使规模较小,训练出的模型效果也可能更好。A. 对B. 错
2.[判断题]在预训练阶段,研究人员发现数据质量比数量更重要,包含高质量内容(如维基百科、学术论文)的数据集,即使规模较小,训练出的模型效果也可能更好。
A. 对
B. 错
题目解答
答案
A. 对
解析
考查要点:本题考察对机器学习中预训练阶段数据质量与数量关系的理解,重点在于判断高质量数据对模型性能的影响是否超过数据规模。
核心思路:预训练模型的性能不仅依赖于数据量,更依赖于数据的质量。高质量数据(如结构清晰、内容丰富的文本)能提供更有效的学习信号,即使规模较小,也能提升模型效果。需结合当前研究趋势判断题目表述的正确性。
关键点:
- 数据质量的重要性:高质量数据(如维基百科、学术论文)具有语义丰富、逻辑性强的特点,有助于模型捕捉复杂语言规律。
- 研究结论支持:近年来研究表明,优化数据质量可减少对大规模数据的依赖,尤其在预训练阶段,高质量小数据集可能优于低质大数据集。
判断题解析:
题目指出“数据质量比数量更重要”,需结合以下两方面分析:
-
传统观点与新趋势对比:
- 传统观点认为“数据量越大模型效果越好”,但随着模型复杂度提升,低质量数据可能引入噪音,影响学习效果。
- 近年研究(如BERT等预训练模型的优化实践)表明,数据清洗和精选(提升质量)能显著改善模型性能,即使数据规模未显著增加。
-
高质量数据的优势:
- 高质量数据(如维基百科、学术论文)语料规范、内容权威,能帮助模型建立更准确的语言表示。
- 小规模高质量数据集可减少冗余信息,使模型更高效地聚焦关键特征,避免“ memorization”(死记硬背)现象。
结论:题目表述符合当前研究共识,答案为A 对。