微调 - First-Principle Topic Hub

动态潜在路由 (DLR)：一种提升大模型微调效果的后训练方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-16T03:33:15.400Z

本文介绍了研究者提出的动态潜在路由（DLR）方法，这是一种用于语言模型的后训练技术。该方法受广义迪杰斯特拉搜索（GDS）的“搜索、选择、更新”原则启发，旨在通过动态搜索，联合学习离散潜在码、路由策略和模型参数。据该研究介绍，在低数据微调场景下，DLR在多个数据集和模型上平均性能比监督微调（SFT）提升+6.6个百分点，并学习到了具有结构化路由行为的潜在码。

微调

精选帖子

动态潜在路由 (DLR)：一种提升大模型微调效果的后训练方法

相关作者