标准回答
为什么要 OCR-Free
传统文档智能是两段式:先用 OCR 检测并识别字符,再把文本送入下游模型做解析、问答或信息抽取。问题在于 OCR 误差会向下游传播、对版式/语言敏感、独立 OCR 引擎部署维护成本高,且丢失版面与视觉布局信息。
OCR-Free 的做法
OCR-Free 模型把文档图像直接当输入,端到端学习「像素 → 目标文本/结构」。以 Donut 为例:用 Swin Transformer 编码文档图像,用 Transformer 解码器自回归生成输出。预训练阶段让模型读出图中所有文字(伪 OCR),获得文字与版面感知;微调阶段直接输出结构化结果,如把发票转成 JSON、回答文档问题。
Pix2Struct 的统一范式
Pix2Struct 通过把网页截图渲染成图像、并以解析 HTML 结构为预训练目标,将表格、图表、界面、文档等多种视觉语言任务统一成「截图 → 文本」,可变分辨率输入保留细节。这类模型让管线更简洁、误差不再逐级累积,并天然利用版面信息。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。