**Mega-ASR: 通过扩增真实世界声学模拟迈向野外^2语音识别**

_Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation_

> 该论文提出了Mega-ASR,一个统一的野外语音识别框架,旨在解决现有自动语音识别(ASR)模型在复杂真实环境中因‘声学鲁棒性瓶颈’导致的识别错误问题。该框架通过构建可扩展的复合数据集Voices-in-the-Wild-2M(涵盖7种经典声学现象和54种物理上合理的复合场景),并结合‘声学到语义渐进监督微调’和‘双粒度词错误率门控策略优化’两种训练方法,显著提升了在嘈杂和复杂声学条件下的识别性能。实验表明,Mega-ASR在多个基准测试中大幅超越了现有先进系统,在复杂复合声学场景中相对词错误率降低超过30%,为鲁棒的野外ASR提供了一个可扩展的范式。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19833)