OpenAI联合创始人安德烈·卡帕西官宣加入Anthropic
2026年5月20日,IT之家报道称OpenAI联合创始人安德烈·卡帕西宣布加入Anthropic,将负责Claude大模型的预训练工作,并主导建立新团队探索利用Claude加速预训练研究。
First-Principle 上关于「大语言模型训练」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月20日,IT之家报道称OpenAI联合创始人安德烈·卡帕西宣布加入Anthropic,将负责Claude大模型的预训练工作,并主导建立新团队探索利用Claude加速预训练研究。
本文介绍了一种名为“分布微调”(DFT)的新训练算法,旨在解决大语言模型写作时过于公式化、过度使用特定词汇的问题。通过MMD、JMQ和L2词符分布等指标,文章量化了标准监督微调的不足。实验表明,DFT能显著提升模型输出分布与训练分布的匹配度,并大幅提升写作质量。一个基于DFT的14B参数模型演示已上线。
本文介绍了名为HölderPO的广义策略优化框架,旨在解决GRPO方法在训练大语言模型时面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值聚合令牌级概率,并动态调整参数p以控制梯度行为。实验显示,该方法在多个数学基准测试中实现了54.9%的平均准确率(比标准GRPO提升7.2%),在ALFWorld任务上达到93.8%的成功率。
2026年5月16日,字节 Seed 发布了一项关于IFCodeEvolve框架的研究。该框架通过蒙特卡洛树搜索采样和模式库的动态约束实例化,实现演员模型与模式库的协同进化,高效生成大规模编程数据,并发布了人工验证的基准数据集IFCodeBench。