大语言模型2026-05-02 12:00·机器之心 + 36 氪

DeepSeek 发布多模态技术范式:以视觉原语思考

DeepSeek 发布 Thinking with Visual Primitives 多模态技术范式,提出让 AI 以视觉原语为基础进行理解和推理的新方法。

DeepSeek 在多模态 AI 领域提出新思路。

技术详情

机器之心和 36 氪报道,DeepSeek 发布「Thinking with Visual Primitives」多模态技术范式。该方法让 AI 模型以基本的视觉原语(而非完整图像)为基础进行理解和推理。

技术路线对比

36 氪指出,OpenAI、谷歌、Anthropic 都在比谁看得清楚,而 DeepSeek 研究的是怎么让 AI 看得明白。这是一种从感知到理解的范式转变。

行业意义

如果这一方法被证明有效,可能改变多模态 AI 模型的设计思路,从单纯提升视觉分辨率转向提升视觉理解的结构化能力。

来源: 机器之心 + 36 氪
链接: https://www.jiqizhixin.com/articles/2026-04-30