DeepSeek 的视觉理解新范式
2026 年 5 月 1 日,36 氪/字母 A 报道 DeepSeek 开源「Thinking With Visual Primitives」。
技术突破
- 视觉原语思考:不只是识别图像,而是理解图像的深层含义
- 从「看」到「理解」:区别于其他公司的"谁看得更清楚",DeepSeek 研究"怎么看得更明白"
- 多模态融合:将视觉理解与语言推理深度融合
竞品对比
- OpenAI:图像生成和理解(GPT-5.5 + image_detail)
- Google:Gemini 的多模态能力
- Anthropic:Claude 的视觉理解
- DeepSeek:用赛博手指让 AI "看明白"而非"看清楚"
行业意义
DeepSeek 的多模态策略不同于其他公司——不追求更高的分辨率和更细的细节,而是追求更深层次的理解。这可能代表多模态 AI 的下一个发展方向。
来源: 36 氪 + 字母 A
链接: https://36kr.com/p/3790047344488961