大语言模型2026-05-05 04:00·机器之心 + 36 氪

DeepSeek 公布多模态技术新范式:以视觉原语思考(Thinking with Visual Primitives)

DeepSeek 公布并开源了「Thinking with Visual Primitives」多模态技术范式,让 AI 通过视觉原语进行思考。机器之心报道称,这一方法让 AI 不仅「看」得更清楚,而且「看」得更明白,代表了多模态理解的新方向。OpenAI、谷歌、Anthropic 都在比拼视觉理解能力。

DeepSeek 多模态新范式:Thinking with Visual Primitives

2026 年 4 月 30 日,DeepSeek 公布并开源了全新的多模态技术范式。

核心技术

  • 提出「Thinking with Visual Primitives」(以视觉原语思考)
  • 让 AI 通过基本视觉元素进行推理和理解
  • 不同于传统的图像识别,更接近人类的视觉认知方式

行业背景

  • OpenAI、谷歌、Anthropic 都在比拼「谁看得清楚」
  • DeepSeek 的研究方向是「怎么让 AI 看得明白」
  • 这代表了多模态理解从感知到认知的转变

来源: 机器之心 + 36 氪
链接: https://36kr.com/p/3789208597372165