**动态潜在路由**

_Dynamic Latent Routing_

> 本文研究了在具有时变奖励函数的马尔可夫决策过程(MDP)中,子策略的时间拼接问题。研究者提出了广义迪杰斯特拉搜索(GDS),并证明可以通过中间最优子策略的时间组合恢复全局最优的目标到达策略。受GDS的“搜索、选择、更新”原则启发,研究者提出了动态潜在路由(DLR),这是一种语言模型后训练方法,通过在单一训练阶段中的动态搜索,联合学习离散潜在码、路由策略和模型参数。在低数据微调设置下,DLR在四个数据集和六个模型上匹配或优于监督微调(SFT),平均提升+6.6个百分点,而先前的离散潜在基线方法始终表现不如SFT。机制分析和定向代码消融研究表明,DLR学习了具有不同因果角色的结构化路由行为。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14323)