Agent3 天前·arXiv

arXiv 发布 EEVEE:首个多数据集测试时提示学习框架,LLM Agent 自提升 48%

EEVEE 是首个多数据集测试时提示学习框架,通过路由器和提示共进化策略,在异构数据流下比 SOTA 方法提升最高 48.2%。

AI Master 解读

核心事件

EEVEE 是首个多数据集测试时提示学习框架,支持 LLM Agent 在真实世界任务流中自我提升

行业影响

EEVEE 通过路由器和提示共进化策略,在异构数据流下比 SOTA 方法提升最高 48.2%。

AI Master 建议

测试时学习是 LLM 能力提升的新范式,建议关注其在多领域任务中的应用前景。

LLM Agent 的自我提升能力迎来重要突破。

技术亮点:

  • 首个多数据集框架:支持测试时提示学习在真实世界任务流中的应用
  • 路由器机制:将传入输入划分为任务簇并分配给合适的提示配置
  • 共进化策略:路由器和提示学习交替进行,解决相互依赖问题

性能表现:

  • 相比 Qwen3-4B-Instruct 平均多基准分数提升 10.38 分
  • 相比 DeepSeek-V3.2 提升 24.32 分
  • 比 SOTA 方法 GEPA 和 ACE 提升最高达 48.2%

核心创新:

  • 现有方法主要针对单数据集设置,EEVEE 面向多数据集异构输入
  • 减轻跨数据集干扰,同时保持单基准学习能力
  • 维护了单基准学习的效率和能力

来源: arXiv
链接: https://arxiv.org/abs/2606.09848