**理解、分析和优化Agentic AI:以CPU为中心的视角**

_Understanding, Analyzing, and Optimizing Agentic AI: A CPU-Centric Perspective_

> 这篇论文深入探讨了Agentic AI的系统性能瓶颈,特别关注被忽视的CPU角色。Agentic AI将传统的单体LLM推理转变为能够规划、调用工具、执行推理和自适应调整的自主问题解决器。由于任务多样性和对异构CPU-GPU系统的高度依赖,CPU在协调外部工具方面起着关键作用。研究团队首先在编译时表征了Agentic AI的执行特征,选择了代表性工作负载以捕获算法多样性。随后,他们在两种不同硬件系统上运行时分析了端到端延迟和吞吐量,以识别各自的架构瓶颈。基于这些瓶颈,论文提出了两种调度优化方法:1. CPU感知的重叠微批处理(COMB),用于同质工作负载;2. 混合Agentic调度(MAS),用于异构工作负载。实验结果表明,COMB在独立同质工作负载执行中可将P50延迟降低高达1.7倍,在开环负载下可将服务/总延迟降低高达3.9倍/1.8倍;MAS在异构开环负载下可将少数请求类型的P50/P90总延迟降低高达2.37倍/2.49倍。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-20 00:10(北京时间)
- **原文**:[打开原文](https://arxiv.org/abs/2511.00739)