ACC方法:编译智能体轨迹提升大语言模型长上下文训练能力
原帖
**ACC:编译智能体轨迹用于长上下文训练**
_ACC: Compiling Agent Trajectories for Long-Context Training_
> 本文提出了一种名为‘智能体上下文编译(ACC)’的方法,旨在解决大语言模型在长上下文推理能力上的训练难题。传统方法要么需要昂贵的长文档整理,要么依赖启发式上下文合成。ACC通过将智能体(如搜索、软件工程、数据库查询)在解决问题过程中产生的复杂交互轨迹(包括工具调用和环境观察)转化为长上下文问答对,使模型能够直接学习跨多轮交互的远距离上下文依赖,无需额外标注。实验表明,在MRCR和GraphWalks等长距离依赖任务上,使用ACC训练的Qwen3-30B-A3B模型性能显著提升(MRCR提升18.1分,GraphWalks提升7.6分),接近更大规模的Qwen3-235B-A22B模型,同时保持了在通用基准上的能力。该方法简单有效,可与现有长上下文扩展或训练方法结合,提供可扩展的监督微调数据。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21850)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
论文提出‘智能体上下文编译(ACC)’方法,将智能体复杂交互轨迹转化为长上下文问答对,用于训练大语言模型,以提升其长距离依赖推理能力。
答案说明
ACC是一种编译智能体轨迹用于大语言模型长上下文训练的方法。它通过将智能体在解决问题时产生的交互轨迹(如工具调用和观察)转化为长上下文问答对,使模型能直接学习跨多轮交互的远距离依赖,无需额外标注。实验显示,经ACC训练的Qwen3-30B-A3B模型在MRCR等任务上性能显著提升。
这篇帖子回答的问题
- ACC方法如何帮助大语言模型进行长上下文训练?
- 使用ACC方法训练模型的效果如何?
核心观点
- ACC方法通过编译智能体交互轨迹生成训练数据,为解决大语言模型长上下文推理训练难题提供了新思路。
- 基于ACC训练的Qwen3-30B-A3B模型在长距离依赖任务上表现优异,性能接近参数规模更大的模型。
FAQ
- Q: ACC方法与传统的长上下文训练方法有何不同?
- A: 传统方法要么需要昂贵的长文档整理,要么依赖启发式上下文合成。ACC则通过编译智能体在解决问题过程中自然产生的交互轨迹来生成训练数据,无需额外标注。
- Q: ACC方法训练出的模型在哪些任务上表现更好?
- A: 根据帖子,在MRCR和GraphWalks等长距离依赖任务上,使用ACC训练的Qwen3-30B-A3B模型性能显著提升。
关键实体
- ACC(智能体上下文编译)
- Qwen3-30B-A3B
- Qwen3-235B-A22B