大语言模型2026-05-06 06:00·36 氪 + 字母 A

DeepSeek 开源「Thinking With Visual Primitives」:让 AI 学会用视觉原思考

36 氪/机器之心报道,DeepSeek 提出并开源「Thinking With Visual Primitives」多模态范式,让 AI 不仅能看,还能理解。OpenAI、谷歌、Anthropic 都在比谁看得清楚,DeepSeek 研究怎么让 AI 看得明白。

DeepSeek 的视觉理解新范式

2026 年 5 月 1 日,36 氪/字母 A 报道 DeepSeek 开源「Thinking With Visual Primitives」。

技术突破

  • 视觉原语思考:不只是识别图像,而是理解图像的深层含义
  • 从「看」到「理解」:区别于其他公司的"谁看得更清楚",DeepSeek 研究"怎么看得更明白"
  • 多模态融合:将视觉理解与语言推理深度融合

竞品对比

  • OpenAI:图像生成和理解(GPT-5.5 + image_detail)
  • Google:Gemini 的多模态能力
  • Anthropic:Claude 的视觉理解
  • DeepSeek:用赛博手指让 AI "看明白"而非"看清楚"

行业意义

DeepSeek 的多模态策略不同于其他公司——不追求更高的分辨率和更细的细节,而是追求更深层次的理解。这可能代表多模态 AI 的下一个发展方向。

来源: 36 氪 + 字母 A
链接: https://36kr.com/p/3790047344488961