LLM 推理2026-05-05 00:00·机器之心 + 36 氪

DeepSeek 开源「Thinking With Visual Primitives」:多模态推理的新范式

DeepSeek 提出并开源了「Thinking With Visual Primitives」多模态推理范式。与 OpenAI、Google、Anthropic 追求「让 AI 看得更清楚」不同,DeepSeek 研究的是「让 AI 看得明白」——将视觉信息转化为基本视觉原语(primitive),再基于这些原语进行推理。这种方法可能从根本上改变多模态 AI 的工作方式。

DeepSeek 视觉原语推理:从「看见」到「理解」

2026 年 5 月 1 日,机器之心和 36 氪均报道了 DeepSeek 的视觉原语推理研究。

核心思路

传统多模态模型直接处理像素级视觉输入 → DeepSeek 的新方法:

  1. 视觉原语提取:将图像分解为基础视觉元素(形状、颜色、空间关系)
  2. 结构化表示:将原语组织为可推理的结构化数据
  3. 基于原语推理:在结构化的视觉表征上执行逻辑推理

与竞品的差异

公司 方法 思路
OpenAI GPT-4o 高分辨率视觉 让模型看得更清楚
Google Gemini 多模态融合 统一视觉和文本表征
Anthropic Claude 视觉理解 强化视觉信息的上下文感知
DeepSeek 视觉原语 让 AI 看得明白

意义

如果「视觉原语」方法被验证有效,它可能成为多模态 AI 的基础范式转变——从端到端像素处理走向结构化的视觉理解。

来源: 机器之心 + 36 氪
链接: https://36kr.com/p/3790047344488961