分布微调（DFT）：修复大语言模型写作问题的新训练算法

原帖

**用分布微调（DFT）修复大语言模型的写作问题**

_Fixing LLM Writing with Distribution Fine Tuning_

> 本文介绍了一种名为“分布微调”（Distribution Fine Tuning，DFT）的新训练算法，旨在解决大语言模型（LLM）写作时过于公式化、过度使用特定词汇或短语的问题。通过使用最大均值差异（MMD）、判断模型质量（JMQ）和L2词符分布等指标，文章量化了标准监督微调（SFT）在匹配训练数据分布上的不足。实验表明，DFT作为后训练步骤，能显著提升模型输出分布与训练分布的匹配度（MMD改善49%，JMQ改善63%），并大幅提升写作质量，包括创造力（+164%）、连贯性（+28%）、清晰度（+16%）和有意义的细节（+146%），同时消除了如过多破折号等“套话”迹象。一个基于DFT的14B参数模型演示已上线。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：论文
- **发布时间**：2026-05-19 04:01（北京时间）
- **原文**：[打开原文](https://rosmine.ai/2026/05/18/fixing-llm-writing-with-distribution-fine-tuning)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了一种名为“分布微调”（DFT）的新训练算法，旨在解决大语言模型写作时过于公式化、过度使用特定词汇的问题。通过MMD、JMQ和L2词符分布等指标，文章量化了标准监督微调的不足。实验表明，DFT能显著提升模型输出分布与训练分布的匹配度，并大幅提升写作质量。一个基于DFT的14B参数模型演示已上线。

答案说明

分布微调（DFT）是一种后训练步骤，旨在通过优化模型输出分布与训练数据分布的匹配度，来解决大语言模型写作中的公式化和套话问题。该方法使用MMD、JMQ和L2词符分布等指标进行量化评估，并在实验中显示出对创造力、连贯性等写作质量指标的显著提升。

这篇帖子回答的问题

分布微调（DFT）是什么，它旨在解决LLM写作的什么问题？
根据帖子，DFT在实验中带来了哪些具体的写作质量提升指标？

核心观点

标准监督微调（SFT）在匹配训练数据分布方面存在不足，这会导致模型写作过于公式化。
分布微调（DFT）作为一种后训练步骤，能显著提升模型输出与训练数据的分布匹配度，并大幅改善写作质量。

FAQ

Q: DFT使用了哪些指标来评估模型输出？: A: 文章提到使用了最大均值差异（MMD）、判断模型质量（JMQ）和L2词符分布等指标来量化标准监督微调的不足并评估DFT的效果。
Q: DFT消除了哪些“套话”迹象？: A: 根据帖子，DFT消除了如过多破折号等“套话”迹象。

关键实体

分布微调（Distribution Fine Tuning, DFT）
标准监督微调（Supervised Fine Tuning, SFT）
最大均值差异（Maximum Mean Discrepancy, MMD）
判断模型质量（Judged Model Quality, JMQ）