**StepAudio 2.5 技术报告:统一音频语言基础模型的突破**

_StepAudio 2.5 Technical Report_

> 该报告介绍了 StepAudio 2.5,这是一个统一的音频语言基础模型,旨在将大型语言模型的推理能力引入音频任务。与以往将语音识别(ASR)、文本转语音(TTS)和实时交互视为不同架构的方法不同,StepAudio 2.5 基于文本和音频共享多模态表示空间的假设,通过任务定制化强化学习(RLHF)和专用解码技术,将单一模型适配为三种操作模式:ASR分支通过可验证的多令牌解码提高转录效率;TTS分支通过基于偏好的RLHF和丰富上下文监督实现可控、富有表现力的合成;实时分支通过生成式奖励建模实现低延迟、角色一致的对话。在标准基准测试中,StepAudio 2.5 在 ASR、TTS 和实时交互方面均达到最先进水平,证明了单一音频语言基础模型能够成功内化语音理解、生成和实时交互的不同部署目标。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23463)