动态潜在路由 (DLR):一种提升大模型微调效果的后训练方法
原帖
**动态潜在路由**
_Dynamic Latent Routing_
> 本文研究了在具有时变奖励函数的马尔可夫决策过程(MDP)中,子策略的时间拼接问题。研究者提出了广义迪杰斯特拉搜索(GDS),并证明可以通过中间最优子策略的时间组合恢复全局最优的目标到达策略。受GDS的“搜索、选择、更新”原则启发,研究者提出了动态潜在路由(DLR),这是一种语言模型后训练方法,通过在单一训练阶段中的动态搜索,联合学习离散潜在码、路由策略和模型参数。在低数据微调设置下,DLR在四个数据集和六个模型上匹配或优于监督微调(SFT),平均提升+6.6个百分点,而先前的离散潜在基线方法始终表现不如SFT。机制分析和定向代码消融研究表明,DLR学习了具有不同因果角色的结构化路由行为。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14323)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了研究者提出的动态潜在路由(DLR)方法,这是一种用于语言模型的后训练技术。该方法受广义迪杰斯特拉搜索(GDS)的“搜索、选择、更新”原则启发,旨在通过动态搜索,联合学习离散潜在码、路由策略和模型参数。据该研究介绍,在低数据微调场景下,DLR在多个数据集和模型上平均性能比监督微调(SFT)提升+6.6个百分点,并学习到了具有结构化路由行为的潜在码。
答案说明
据该研究介绍,动态潜在路由(DLR)是一种受广义迪杰斯特拉搜索(GDS)原则启发的语言模型后训练方法。它通过在单一训练阶段进行动态搜索,联合学习离散潜在码、路由策略和模型参数。在低数据微调设置下,该方法在多个数据集和模型上平均提升+6.6个百分点,并优于先前的离散潜在基线方法。
这篇帖子回答的问题
- 什么是动态潜在路由(DLR)?
- 动态潜在路由(DLR)在低数据微调场景下效果如何?
核心观点
- 动态潜在路由(DLR)受广义迪杰斯特拉搜索(GDS)的“搜索、选择、更新”原则启发,是一种语言模型后训练方法。
- 在低数据微调设置下,据研究介绍,DLR在四个数据集和六个模型上匹配或优于监督微调(SFT),平均提升+6.6个百分点,且优于先前的离散潜在基线方法。
关键实体
- 动态潜在路由 (DLR)
- 广义迪杰斯特拉搜索 (GDS)
- 监督微调 (SFT)