大语言模型2026-05-02 04:00·36 氪 + 机器之心

DeepSeek 公布「以视觉原语思考」多模态技术范式

DeepSeek 提出并开源「Thinking With Visual Primitives」多模态范式,为 AI 视觉理解提供新思路。

多模态 AI 正在探索新的技术路径。

技术范式

36 氪和机器之心报道,DeepSeek 提出并开源了「Thinking With Visual Primitives」(以视觉原语思考)的多模态技术范式。该方法让 AI 模型通过基本的视觉元素(原语)来理解和分析图像,而非直接将图像编码为向量。

技术意义

传统多模态模型通常将图像和文本映射到同一向量空间,而 DeepSeek 的视觉原语方法试图让模型「像人一样看世界」——先识别基本的视觉元素(形状、颜色、空间关系),再在此基础上进行推理。

行业背景

多模态能力是当前大模型竞争的关键维度。OpenAI、Google、Anthropic 都在推进视觉理解能力,DeepSeek 的视觉原语方法为这一领域提供了新的技术方向。

来源: 36 氪 + 机器之心
链接: https://36kr.com/p/3789208597372165