如何用大模型从非结构化文本里抽取结构化信息？

Question 1

Accepted Answer

第一步：定义清晰的 schema 先把要抽什么定清楚：每个字段的名字、类型（字符串/数字/日期）、是否必填、枚举值范围。比如从简历抽 {name, phone, years_of_experience(int), skills(list)}。schema 越明确，模型越不容易自由发挥。 第二步：明确指令 + 只输出 JSON 在 prompt 里要求「严格按以下 schema 输出 JSON，不要任何额外解释」，并强调「原文没有的字段填 null，不要编造」，从源头压制幻觉。 第三步：给 few-shot 示例 放 2–3 个「输入文本 → 期望 JSON」的示例，尤其覆盖字段缺失、多值、边界情况，让模型照着模仿格式。 第四步：校验 + 重试 代码侧用 schema 校验（如 JSON Schema / Pydantic）解析输出：解析失败或字段类型不对，就把报错信息回灌让模型修正，设重试上限。 第五步：锁格式与评测 要更稳可用约束解码或 Function Calling（把 schema 作为函数参数定义，让模型直接产出合法结构）。最后建一个标注好的评测集，量化字段级准确率，持续迭代而非凭感觉。

Question 2

模型老是给原文里没有的信息（幻觉）怎么办？

Accepted Answer

在指令里强制「只抽原文出现的内容，没有就填 null，禁止推测」；few-shot 里专门放「字段缺失填 null」的示例；输出后做规则校验，必要时让模型对每个字段附上原文出处，便于核查和过滤编造值。

Question 3

为什么用 Function Calling 抽取更稳？

Accepted Answer

把目标 schema 定义成函数的参数结构，模型被强制按这个结构产出参数，天然是合法 JSON，省去解析自由文本的麻烦，格式稳定性比让它「输出 JSON 文本」更高，也更容易校验。

如何用大模型从非结构化文本里抽取结构化信息？

核心要点

标准回答

常见误区

追问

延伸学习