大语言模型2026-05-18 08:18·arXiv

arXiv 研究:ATLAS 提出 Agent 视觉推理新范式——一个词就够了

arXiv 发布 ATLAS 研究,探索 Agent 推理与潜在视觉推理的统一方法,提出仅需一个词即可同时支持两种推理模式,为多模态 Agent 提供了新的技术路线

ATLAS:视觉推理的统一方法

2026 年 5 月 14 日,arXiv 发布 ATLAS 研究。

核心思路

  • 统一框架:将 Agent 推理(Agentic Reasoning)与潜在视觉推理(Latent Visual Reasoning)统一到同一框架
  • 一词双用:仅需一个词即可同时支持两种推理模式
  • 效率提升:避免了传统方法中生成中间图像的开销

技术意义

  • 视觉推理是 Agent 在真实世界中执行任务的关键能力
  • ATLAS 方法大幅降低了多模态推理的计算开销
  • 为具身智能 Agent 提供了新的推理基础

来源: arXiv
链接: https://arxiv.org/abs/2605.15198v1