← 首页/AI 资讯

大语言模型2026-05-02 04:00·36 氪 + 机器之心

DeepSeek 公布「以视觉原语思考」多模态技术范式

DeepSeek 提出并开源「Thinking With Visual Primitives」多模态范式，为 AI 视觉理解提供新思路。

多模态 AI 正在探索新的技术路径。

技术范式

36 氪和机器之心报道，DeepSeek 提出并开源了「Thinking With Visual Primitives」（以视觉原语思考）的多模态技术范式。该方法让 AI 模型通过基本的视觉元素（原语）来理解和分析图像，而非直接将图像编码为向量。

技术意义

传统多模态模型通常将图像和文本映射到同一向量空间，而 DeepSeek 的视觉原语方法试图让模型「像人一样看世界」——先识别基本的视觉元素（形状、颜色、空间关系），再在此基础上进行推理。

行业背景

多模态能力是当前大模型竞争的关键维度。OpenAI、Google、Anthropic 都在推进视觉理解能力，DeepSeek 的视觉原语方法为这一领域提供了新的技术方向。

来源： 36 氪 + 机器之心
链接： https://36kr.com/p/3789208597372165

📰 原始来源

https://36kr.com/p/3789208597372165

← 上一篇

Anthropic 与 NEC 合作建设日本最大 AI 工程人才队伍

下一篇 →

图灵奖得主炮轰 AI Agent：绕不开数据库的老问题

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法