Agent3 天前·arXiv
arXiv 发布 EEVEE:首个多数据集测试时提示学习框架,LLM Agent 自提升 48%
EEVEE 是首个多数据集测试时提示学习框架,通过路由器和提示共进化策略,在异构数据流下比 SOTA 方法提升最高 48.2%。
AI Master 解读
核心事件
EEVEE 是首个多数据集测试时提示学习框架,支持 LLM Agent 在真实世界任务流中自我提升
行业影响
EEVEE 通过路由器和提示共进化策略,在异构数据流下比 SOTA 方法提升最高 48.2%。
AI Master 建议
测试时学习是 LLM 能力提升的新范式,建议关注其在多领域任务中的应用前景。
LLM Agent 的自我提升能力迎来重要突破。
技术亮点:
- 首个多数据集框架:支持测试时提示学习在真实世界任务流中的应用
- 路由器机制:将传入输入划分为任务簇并分配给合适的提示配置
- 共进化策略:路由器和提示学习交替进行,解决相互依赖问题
性能表现:
- 相比 Qwen3-4B-Instruct 平均多基准分数提升 10.38 分
- 相比 DeepSeek-V3.2 提升 24.32 分
- 比 SOTA 方法 GEPA 和 ACE 提升最高达 48.2%
核心创新:
- 现有方法主要针对单数据集设置,EEVEE 面向多数据集异构输入
- 减轻跨数据集干扰,同时保持单基准学习能力
- 维护了单基准学习的效率和能力
来源: arXiv
链接: https://arxiv.org/abs/2606.09848