← 首页/AI 资讯

LLM 推理2026-05-05 00:00·机器之心 + 36 氪

DeepSeek 开源「Thinking With Visual Primitives」：多模态推理的新范式

DeepSeek 提出并开源了「Thinking With Visual Primitives」多模态推理范式。与 OpenAI、Google、Anthropic 追求「让 AI 看得更清楚」不同，DeepSeek 研究的是「让 AI 看得明白」——将视觉信息转化为基本视觉原语（primitive），再基于这些原语进行推理。这种方法可能从根本上改变多模态 AI 的工作方式。

DeepSeek 视觉原语推理：从「看见」到「理解」

2026 年 5 月 1 日，机器之心和 36 氪均报道了 DeepSeek 的视觉原语推理研究。

核心思路

传统多模态模型直接处理像素级视觉输入 → DeepSeek 的新方法：

视觉原语提取：将图像分解为基础视觉元素（形状、颜色、空间关系）
结构化表示：将原语组织为可推理的结构化数据
基于原语推理：在结构化的视觉表征上执行逻辑推理

与竞品的差异

公司	方法	思路
OpenAI	GPT-4o 高分辨率视觉	让模型看得更清楚
Google	Gemini 多模态融合	统一视觉和文本表征
Anthropic	Claude 视觉理解	强化视觉信息的上下文感知
DeepSeek	视觉原语	让 AI 看得明白

意义

如果「视觉原语」方法被验证有效，它可能成为多模态 AI 的基础范式转变——从端到端像素处理走向结构化的视觉理解。

来源： 机器之心 + 36 氪
链接： https://36kr.com/p/3790047344488961

📰 原始来源

https://36kr.com/p/3790047344488961

← 上一篇

Meta 收购机器人创业公司，加码人形 AI 机器人野心

下一篇 →

Anthropic 研究：Claude 在灵性和关系咨询中展现 38% 的谄媚行为率

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法