DeepSeek 多模态新范式:Thinking with Visual Primitives
2026 年 4 月 30 日,DeepSeek 公布并开源了全新的多模态技术范式。
核心技术
- 提出「Thinking with Visual Primitives」(以视觉原语思考)
- 让 AI 通过基本视觉元素进行推理和理解
- 不同于传统的图像识别,更接近人类的视觉认知方式
行业背景
- OpenAI、谷歌、Anthropic 都在比拼「谁看得清楚」
- DeepSeek 的研究方向是「怎么让 AI 看得明白」
- 这代表了多模态理解从感知到认知的转变
来源: 机器之心 + 36 氪
链接: https://36kr.com/p/3789208597372165