← 首页/AI 资讯

大语言模型2026-05-05 04:00·机器之心 + 36 氪

DeepSeek 公布多模态技术新范式：以视觉原语思考（Thinking with Visual Primitives）

DeepSeek 公布并开源了「Thinking with Visual Primitives」多模态技术范式，让 AI 通过视觉原语进行思考。机器之心报道称，这一方法让 AI 不仅「看」得更清楚，而且「看」得更明白，代表了多模态理解的新方向。OpenAI、谷歌、Anthropic 都在比拼视觉理解能力。

DeepSeek 多模态新范式：Thinking with Visual Primitives

2026 年 4 月 30 日，DeepSeek 公布并开源了全新的多模态技术范式。

核心技术

提出「Thinking with Visual Primitives」（以视觉原语思考）
让 AI 通过基本视觉元素进行推理和理解
不同于传统的图像识别，更接近人类的视觉认知方式

行业背景

OpenAI、谷歌、Anthropic 都在比拼「谁看得清楚」
DeepSeek 的研究方向是「怎么让 AI 看得明白」
这代表了多模态理解从感知到认知的转变

来源： 机器之心 + 36 氪
链接： https://36kr.com/p/3789208597372165

📰 原始来源

https://36kr.com/p/3789208597372165

← 上一篇

AI 大模型的「中文税」：为什么中文比英文更费 Token？

下一篇 →

苹果官方 App 意外打包 Claude.md，暴露内部使用定制版 Claude 模型

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法