**AstraFlow:面向数据流的强化学习用于智能体大型语言模型**

_AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs_

> AstraFlow是一种面向数据流的强化学习系统,旨在解决智能体大型语言模型(LLM)强化学习成本高昂的问题。该系统通过将滚动服务、数据流管理和训练解耦为独立组件,取代传统的以训练器为中心的控制架构,从而原生支持复杂的多策略智能体强化学习工作负载。评估显示,AstraFlow能在数学、代码、搜索和AgentBench任务上支持多策略训练、弹性扩展和异构跨区域执行,在多策略协作训练中相比现有系统加速2.7倍,同时保持或提升准确性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15565)