多模态 AI 正在探索新的技术路径。
技术范式
36 氪和机器之心报道,DeepSeek 提出并开源了「Thinking With Visual Primitives」(以视觉原语思考)的多模态技术范式。该方法让 AI 模型通过基本的视觉元素(原语)来理解和分析图像,而非直接将图像编码为向量。
技术意义
传统多模态模型通常将图像和文本映射到同一向量空间,而 DeepSeek 的视觉原语方法试图让模型「像人一样看世界」——先识别基本的视觉元素(形状、颜色、空间关系),再在此基础上进行推理。
行业背景
多模态能力是当前大模型竞争的关键维度。OpenAI、Google、Anthropic 都在推进视觉理解能力,DeepSeek 的视觉原语方法为这一领域提供了新的技术方向。
来源: 36 氪 + 机器之心
链接: https://36kr.com/p/3789208597372165