MIRA:更聪明的训练数据选择
2026 年 5 月 29 日,arXiv 收录 LLM 数据选择优化研究。
核心问题
- 大模型中间训练阶段面临海量数据的质量筛选难题
- 低质量数据会损害模型的推理和对齐能力
MIRA 方法
- 标尺锚定: 基于明确的评估标准锚定数据质量
- 来源感知: 考虑数据来源特征进行智能筛选
来源: arXiv
链接: https://arxiv.org/abs/2605.30288
2026 年 5 月 29 日,arXiv 收录 LLM 数据选择优化研究。
来源: arXiv
链接: https://arxiv.org/abs/2605.30288