大语言模型训练

First-Principle 上关于「大语言模型训练」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

OpenAI联合创始人安德烈·卡帕西官宣加入Anthropic

IT之家（RSS） · 2026-05-31T09:37:18.579Z

2026年5月20日，IT之家报道称OpenAI联合创始人安德烈·卡帕西宣布加入Anthropic，将负责Claude大模型的预训练工作，并主导建立新团队探索利用Claude加速预训练研究。

分布微调（DFT）：修复大语言模型写作问题的新训练算法

Hacker News：AI 热帖 · 2026-05-31T09:37:20.888Z

本文介绍了一种名为“分布微调”（DFT）的新训练算法，旨在解决大语言模型写作时过于公式化、过度使用特定词汇的问题。通过MMD、JMQ和L2词符分布等指标，文章量化了标准监督微调的不足。实验表明，DFT能显著提升模型输出分布与训练分布的匹配度，并大幅提升写作质量。一个基于DFT的14B参数模型演示已上线。

Hölder策略优化：解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:12.662Z

本文介绍了名为HölderPO的广义策略优化框架，旨在解决GRPO方法在训练大语言模型时面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值聚合令牌级概率，并动态调整参数p以控制梯度行为。实验显示，该方法在多个数学基准测试中实现了54.9%的平均准确率（比标准GRPO提升7.2%），在ALFWorld任务上达到93.8%的成功率。

IFCodeEvolve: 基于演员参数化模式协同进化的可引导指令遵循编程数据合成框架

字节 Seed：Research Papers（网页内嵌数据） · 2026-05-31T09:37:07.184Z

2026年5月16日，字节 Seed 发布了一项关于IFCodeEvolve框架的研究。该框架通过蒙特卡洛树搜索采样和模式库的动态约束实例化，实现演员模型与模式库的协同进化，高效生成大规模编程数据，并发布了人工验证的基准数据集IFCodeBench。

精选帖子

OpenAI联合创始人安德烈·卡帕西官宣加入Anthropic

分布微调（DFT）：修复大语言模型写作问题的新训练算法

Hölder策略优化：解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架

IFCodeEvolve: 基于演员参数化模式协同进化的可引导指令遵循编程数据合成框架

相关作者