标准回答
短文直接做
内容能放进上下文时,一次调用即可。prompt 里明确:摘要多长(如 3 个要点或 100 字内)、什么风格(客观/口语)、什么结构(带小标题或编号),并要求「只根据原文,不要编造」。
长文分块(Map-Reduce)
文章/会议记录超出上下文时:先把长文切块,对每块各自摘要(Map),再把这些小摘要合并、二次摘要成最终结果(Reduce)。或者直接用支持长上下文的模型一次性喂进去,省去分块但成本更高。
控制质量
用 prompt 锁定长度和结构,避免过长或丢重点;强调忠实原文防幻觉,尤其数字、结论不能改写错。
评估
抽样人工检查或用 LLM-as-judge 评「忠实度(是否符合原文)+ 覆盖度(关键点有没有漏)+ 可读性」,盯住摘要里凭空多出来的信息。
常见误区
⚠️ 常见踩坑
只追求摘要流畅好读,忽略忠实度——模型会自信地加入原文没有的结论或改错数字;以及对超长文档不分块,直接截断导致后半部分内容全丢。
追问
追问 1:长文用 Map-Reduce 分块摘要,合并时丢了重点怎么办?
切块时保留重叠避免割裂;每块摘要让模型保留关键实体/数字/结论而非过度压缩;Reduce 阶段给出全局目标(如「保留所有决策项和数据」);对特别重要的章节可单独加权或保留原文片段,必要时多轮 Reduce 逐层归纳。
追问 2:怎么自动评估摘要好不好,能上线监控吗?
离线用评测集,让 LLM-as-judge 或人工从忠实度、关键点覆盖度、长度/格式合规打分;可用 ROUGE 等指标做参考但别只看它。上线后抽样人工复核 + 收集用户反馈(点踩/重新生成率),把 badcase 回流优化 prompt。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。