核心要点

  • 能给基本做法:短文直接 LLM 摘要;长文超上下文就分块Map-Reduce 或用长上下文模型

  • 能用 prompt 控制输出:指定长度、风格、结构(要点/小标题),让结果可读

  • 能防幻觉:要求「只基于原文,不补充外部信息」,关键信息不遗漏

  • 知道要评估摘要的忠实度(是否符合原文),不是写得顺就行

标准回答

短文直接做

内容能放进上下文时,一次调用即可。prompt 里明确:摘要多长(如 3 个要点或 100 字内)、什么风格(客观/口语)、什么结构(带小标题或编号),并要求「只根据原文,不要编造」。

长文分块(Map-Reduce)

文章/会议记录超出上下文时:先把长文切块,对每块各自摘要(Map),再把这些小摘要合并、二次摘要成最终结果(Reduce)。或者直接用支持长上下文的模型一次性喂进去,省去分块但成本更高。

控制质量

用 prompt 锁定长度和结构,避免过长或丢重点;强调忠实原文防幻觉,尤其数字、结论不能改写错。

评估

抽样人工检查或用 LLM-as-judge 评「忠实度(是否符合原文)+ 覆盖度(关键点有没有漏)+ 可读性」,盯住摘要里凭空多出来的信息。

常见误区

⚠️ 常见踩坑

只追求摘要流畅好读,忽略忠实度——模型会自信地加入原文没有的结论或改错数字;以及对超长文档不分块,直接截断导致后半部分内容全丢。

追问

追问 1长文用 Map-Reduce 分块摘要,合并时丢了重点怎么办?

切块时保留重叠避免割裂;每块摘要让模型保留关键实体/数字/结论而非过度压缩;Reduce 阶段给出全局目标(如「保留所有决策项和数据」);对特别重要的章节可单独加权或保留原文片段,必要时多轮 Reduce 逐层归纳。

追问 2怎么自动评估摘要好不好,能上线监控吗?

离线用评测集,让 LLM-as-judge 或人工从忠实度、关键点覆盖度、长度/格式合规打分;可用 ROUGE 等指标做参考但别只看它。上线后抽样人工复核 + 收集用户反馈(点踩/重新生成率),把 badcase 回流优化 prompt。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。