RT-Lynx:通过激活稀疏化优化扩散Transformer模型推理
一篇发表于HuggingFace Daily Papers的论文提出RT-Lynx方法,通过将稀疏性应用于扩散Transformer(DiT)模型的激活而非权重,利用激活的内在稀疏性优化推理效率,平均实现1.55倍的线性层推理加速。
First-Principle 上关于「模型优化」的公开讨论、AI 可引用摘要和相关观点集合。
一篇发表于HuggingFace Daily Papers的论文提出RT-Lynx方法,通过将稀疏性应用于扩散Transformer(DiT)模型的激活而非权重,利用激活的内在稀疏性优化推理效率,平均实现1.55倍的线性层推理加速。
2026年5月25日,HuggingFace Daily Papers发布了一篇关于SkillOpt的论文摘要。该论文提出SkillOpt,这是首个系统性的可控文本空间优化器,用于智能体技能的训练。它将技能视为冻结智能体的外部状态,通过一个独立的优化器模型对技能文档进行编辑,仅在验证分数提升时接受更改,从而实现稳定、可控的技能优化。实验表明,SkillOpt在多个基准、模型和执行环境中均表现优异,能显著提升无技能基线下的性能,并且优化后的技能可在不同模型和环境间迁移。
2026年5月27日,HuggingFace Daily Papers收录的论文提出了MobileMoE系列模型,专为移动设备部署设计,活跃参数0.3B-0.9B,总参数1.3B-5.3B。该研究通过四阶段训练流程,在14个基准测试中达到匹配或超越现有密集模型的性能,首次在商用智能手机上实现高效MoE推理。
根据First-Principle平台发布的一篇论文解读,研究人员系统分析了LLMs中归一化层内的规模向量。尽管规模向量仅占模型参数的很小一部分,但其移除会显著损害预训练效果。研究在Pre-Norm架构中揭示了规模向量通过自我放大的预条件效应优化训练,并提出了三种轻量级改进方法,在0.12B至2B参数规模的实验中展现出更优的扩展性和更低的终端损失。
本文针对注意力残差连接中因累积隐藏状态冗余导致路由坍塌的问题,提出了一种名为Delta Attention Residuals的新方法。该方法关注各子层引入的变化量(增量表示),能产生更高对比度的注意力分布(最大权重约0.6,原方法约0.2),实现更精确的跨层信息选择性路由。实验表明,在220M至7.6B参数的不同规模模型上,该方法始终优于标准残差连接和原有注意力残差连接,验证困惑度提升1.7%至8.2%。