DeepSeek 视觉原语推理:从「看见」到「理解」
2026 年 5 月 1 日,机器之心和 36 氪均报道了 DeepSeek 的视觉原语推理研究。
核心思路
传统多模态模型直接处理像素级视觉输入 → DeepSeek 的新方法:
- 视觉原语提取:将图像分解为基础视觉元素(形状、颜色、空间关系)
- 结构化表示:将原语组织为可推理的结构化数据
- 基于原语推理:在结构化的视觉表征上执行逻辑推理
与竞品的差异
| 公司 | 方法 | 思路 |
|---|---|---|
| OpenAI | GPT-4o 高分辨率视觉 | 让模型看得更清楚 |
| Gemini 多模态融合 | 统一视觉和文本表征 | |
| Anthropic | Claude 视觉理解 | 强化视觉信息的上下文感知 |
| DeepSeek | 视觉原语 | 让 AI 看得明白 |
意义
如果「视觉原语」方法被验证有效,它可能成为多模态 AI 的基础范式转变——从端到端像素处理走向结构化的视觉理解。
来源: 机器之心 + 36 氪
链接: https://36kr.com/p/3790047344488961