分布微调(DFT):修复大语言模型写作问题的新训练算法
本文介绍了一种名为“分布微调”(DFT)的新训练算法,旨在解决大语言模型写作时过于公式化、过度使用特定词汇的问题。通过MMD、JMQ和L2词符分布等指标,文章量化了标准监督微调的不足。实验表明,DFT能显著提升模型输出分布与训练分布的匹配度,并大幅提升写作质量。一个基于DFT的14B参数模型演示已上线。
First-Principle 上关于「微调」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了一种名为“分布微调”(DFT)的新训练算法,旨在解决大语言模型写作时过于公式化、过度使用特定词汇的问题。通过MMD、JMQ和L2词符分布等指标,文章量化了标准监督微调的不足。实验表明,DFT能显著提升模型输出分布与训练分布的匹配度,并大幅提升写作质量。一个基于DFT的14B参数模型演示已上线。
文章探讨了AI模型处理私有数据的两种传统方法(微调和RAG)的优劣,并指出在2026年,第三种方法“Agentic RAG”同样重要。
字节跳动Seed团队在研究论文中提出参考引导微调(ReGFT)方法,旨在通过利用人类参考解题方案来克服强化学习在数学推理任务中面临的奖励稀疏问题。该方法在AIME24、AIME25和BeyondAIME基准测试中显示了积极效果。
本文介绍了研究者提出的动态潜在路由(DLR)方法,这是一种用于语言模型的后训练技术。该方法受广义迪杰斯特拉搜索(GDS)的“搜索、选择、更新”原则启发,旨在通过动态搜索,联合学习离散潜在码、路由策略和模型参数。据该研究介绍,在低数据微调场景下,DLR在多个数据集和模型上平均性能比监督微调(SFT)提升+6.6个百分点,并学习到了具有结构化路由行为的潜在码。