**表征优于路由:克服多时间尺度PPO中的代理目标黑客攻击**

_Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO_

> 该论文指出,在多时间尺度的强化学习算法(如PPO)中,简单融合多折扣因子信号会导致严重算法缺陷,如代理目标黑客攻击和近视退化。作者提出了一种目标解耦架构:在Critic端保留多时间尺度预测以进行辅助表征学习,而在Actor端严格隔离短期信号,仅基于长期优势更新策略。实验表明,该方法在LunarLander-v2环境中显著提升了性能,消除了策略崩溃并避免了局部最优陷阱。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2604.13517)