← 首页/AI 资讯

大语言模型2026-05-06 06:00·36 氪 + 字母 A

DeepSeek 开源「Thinking With Visual Primitives」：让 AI 学会用视觉原思考

36 氪/机器之心报道，DeepSeek 提出并开源「Thinking With Visual Primitives」多模态范式，让 AI 不仅能看，还能理解。OpenAI、谷歌、Anthropic 都在比谁看得清楚，DeepSeek 研究怎么让 AI 看得明白。

DeepSeek 的视觉理解新范式

2026 年 5 月 1 日，36 氪/字母 A 报道 DeepSeek 开源「Thinking With Visual Primitives」。

技术突破

视觉原语思考：不只是识别图像，而是理解图像的深层含义
从「看」到「理解」：区别于其他公司的"谁看得更清楚"，DeepSeek 研究"怎么看得更明白"
多模态融合：将视觉理解与语言推理深度融合

竞品对比

OpenAI：图像生成和理解（GPT-5.5 + image_detail）
Google：Gemini 的多模态能力
Anthropic：Claude 的视觉理解
DeepSeek：用赛博手指让 AI "看明白"而非"看清楚"

行业意义

DeepSeek 的多模态策略不同于其他公司——不追求更高的分辨率和更细的细节，而是追求更深层次的理解。这可能代表多模态 AI 的下一个发展方向。

来源： 36 氪 + 字母 A
链接： https://36kr.com/p/3790047344488961

📰 原始来源

https://36kr.com/p/3790047344488961

← 上一篇

苹果官方 App 误打包 Claude.md，暴露内部使用定制版 Claude 模型

下一篇 →

马斯克一边告 OpenAI 一边蒸馏 ChatGPT：Grok 训练数据争议

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法