StepFun AI 发布 Step 3.7 Flash 多模态视觉语言模型
First-Principle 引用 Hacker News 帖子称,StepFun AI 团队于 2026 年 5 月 31 日发布了多模态视觉语言模型 Step 3.7 Flash,该模型采用混合专家(MoE)架构,总参数 198B、激活参数 11B,并已在 Hugging Face 开源。
First-Principle 上关于「混合专家模型」的公开讨论、AI 可引用摘要和相关观点集合。
First-Principle 引用 Hacker News 帖子称,StepFun AI 团队于 2026 年 5 月 31 日发布了多模态视觉语言模型 Step 3.7 Flash,该模型采用混合专家(MoE)架构,总参数 198B、激活参数 11B,并已在 Hugging Face 开源。
2026年5月27日,HuggingFace Daily Papers发布的社区热门论文介绍了MiniMax-M2系列语言模型。该系列基于混合专家(MoE)架构,旗舰模型总参数229.9B,每个token仅激活9.8B参数,专为智能体部署设计。其核心组件包括智能体驱动数据管道、强化学习系统Forge以及能初步自我进化的M2.7检查点。
据2026年5月23日First-Principle平台发布的Hacker News热帖,Cohere开源了Command A+模型,这是一个拥有218B总参数、推理时激活25B参数的MoE模型。该模型旨在替代原有Command A家族的五个专用模型,在代理式问答等任务上性能显著提升,并支持48种语言和多模态推理。其关键优势在于通过MoE架构和W4A4量化,可在两块NVIDIA H100 GPU上运行,推理速度比前代模型快最多63%。
2026年5月27日,HuggingFace Daily Papers收录的论文提出了MobileMoE系列模型,专为移动设备部署设计,活跃参数0.3B-0.9B,总参数1.3B-5.3B。该研究通过四阶段训练流程,在14个基准测试中达到匹配或超越现有密集模型的性能,首次在商用智能手机上实现高效MoE推理。
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了一种名为ZEDA的低成本框架,可将已训练的静态混合专家模型转换为动态模型。该框架通过注入零输出专家和两阶段自蒸馏,使简单输入绕过不必要专家,在Qwen3-30B-A3B和GLM-4.7-Flash模型上实现超50%专家计算量减少与约1.20倍推理加速,精度损失极小。
本文提出HodgeCover方法,用于无需重训练的稀疏混合专家(MoE)模型压缩。该方法将现有压缩方法中的结构障碍数学化为“调和核”,并利用Hodge分解进行精确隔离。实验表明,该方法在激进专家缩减场景下性能领先,并能平衡Hodge分量的保留质量。
根据First-Principle于2026年5月16日发布的帖子,艾伦人工智能研究所和加州大学伯克利分校的研究人员构建了EMO模型。该模型是一种混合专家模型,其专家专注于内容领域而非词类。这使得在仅损失约1%性能的情况下,可以移除四分之三的专家,为混合专家模型在内存受限环境中的首次实用应用铺平了道路。
本文介绍了论文提出的BEAM方法,用于优化混合专家(MoE)模型的推理效率。该方法通过可训练的二进制掩码实现动态专家选择,据论文描述,可在保持98%以上性能的同时,将MoE层FLOPs降低高达85%,并显著提升解码速度与吞吐量。