混合专家模型

First-Principle 上关于「混合专家模型」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

StepFun AI 发布 Step 3.7 Flash 多模态视觉语言模型

Hacker News：AI 热帖 · 2026-05-31T09:37:23.581Z

First-Principle 引用 Hacker News 帖子称，StepFun AI 团队于 2026 年 5 月 31 日发布了多模态视觉语言模型 Step 3.7 Flash，该模型采用混合专家（MoE）架构，总参数 198B、激活参数 11B，并已在 Hugging Face 开源。

MiniMax-M2系列：基于混合专家架构的智能体语言模型

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:21.243Z

2026年5月27日，HuggingFace Daily Papers发布的社区热门论文介绍了MiniMax-M2系列语言模型。该系列基于混合专家（MoE）架构，旗舰模型总参数229.9B，每个token仅激活9.8B参数，专为智能体部署设计。其核心组件包括智能体驱动数据管道、强化学习系统Forge以及能初步自我进化的M2.7检查点。

Cohere开源Command A+：218B参数MoE模型，仅需两块H100运行

Hacker News：AI 热帖 · 2026-05-31T09:37:15.620Z

据2026年5月23日First-Principle平台发布的Hacker News热帖，Cohere开源了Command A+模型，这是一个拥有218B总参数、推理时激活25B参数的MoE模型。该模型旨在替代原有Command A家族的五个专用模型，在代理式问答等任务上性能显著提升，并支持48种语言和多模态推理。其关键优势在于通过MoE架构和W4A4量化，可在两块NVIDIA H100 GPU上运行，推理速度比前代模型快最多63%。

MobileMoE：面向移动设备的专家混合模型扩展

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:13.041Z

2026年5月27日，HuggingFace Daily Papers收录的论文提出了MobileMoE系列模型，专为移动设备部署设计，活跃参数0.3B-0.9B，总参数1.3B-5.3B。该研究通过四阶段训练流程，在14个基准测试中达到匹配或超越现有密集模型的性能，首次在商用智能手机上实现高效MoE推理。

ZEDA框架：通过自蒸馏让后训练MoE模型跳过一半专家以加速推理

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:22.560Z

2026年5月19日，HuggingFace Daily Papers社区热门论文介绍了一种名为ZEDA的低成本框架，可将已训练的静态混合专家模型转换为动态模型。该框架通过注入零输出专家和两阶段自蒸馏，使简单输入绕过不必要专家，在Qwen3-30B-A3B和GLM-4.7-Flash模型上实现超50%专家计算量减少与约1.20倍推理加速，精度损失极小。

HodgeCover：基于高阶拓扑覆盖的稀疏混合专家模型压缩新方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:17.841Z

本文提出HodgeCover方法，用于无需重训练的稀疏混合专家（MoE）模型压缩。该方法将现有压缩方法中的结构障碍数学化为“调和核”，并利用Hodge分解进行精确隔离。实验表明，该方法在激进专家缩减场景下性能领先，并能平衡Hodge分量的保留质量。

研究人员训练出AI模型EMO，仅用12.5%的专家即可达到接近完整的性能

The Decoder：AI News（RSS） · 2026-05-31T09:37:07.677Z

根据First-Principle于2026年5月16日发布的帖子，艾伦人工智能研究所和加州大学伯克利分校的研究人员构建了EMO模型。该模型是一种混合专家模型，其专家专注于内容领域而非词类。这使得在仅损失约1%性能的情况下，可以移除四分之三的专家，为混合专家模型在内存受限环境中的首次实用应用铺平了道路。

BEAM：基于二进制专家激活掩码的MoE动态路由加速方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:20.519Z

本文介绍了论文提出的BEAM方法，用于优化混合专家（MoE）模型的推理效率。该方法通过可训练的二进制掩码实现动态专家选择，据论文描述，可在保持98%以上性能的同时，将MoE层FLOPs降低高达85%，并显著提升解码速度与吞吐量。

精选帖子

相关作者