ChildVox：儿童声音理解与表征的语音、音频及大型音频语言模型基准测试

原帖

**ChildVox：理解和表征儿童声音的语音、音频及大型音频语言模型基准测试**

_ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood_

> 介绍ChildVox，这是一个新颖的基准测试，用于表征儿童沟通中的多样化声学信号。它涵盖了从出生到学龄的完整发育轨迹，包括生理声音、非语言发声、规范音节和口语。基准测试整合了17个以儿童为中心的音频和语音数据集中的20多个子任务，支持跨语料库和跨领域的系统比较。评估了包括自监督、面向自动语音识别和大型音频语言模型在内的多种基础模型，结果表明ChildVox为识别儿童广泛的声学信号提供了高性能模型，支持下游应用如评估儿童语言水平和跟踪语音发展。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.29257)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该文章介绍了ChildVox基准测试，用于系统评估模型对儿童从出生到学龄的多样化声学信号（生理声音、非语言发声、规范音节和口语）的理解能力。它整合了17个数据集的20多个子任务，评估了自监督模型、语音识别模型和大型音频语言模型，结果显示其能支持评估儿童语言水平和跟踪语音发展等下游应用。

答案说明

ChildVox是一个用于理解和表征儿童声音的基准测试，它整合了多个以儿童为中心的音频和语音数据集，覆盖儿童发育全程，并评估了多种AI模型，以支持评估语言水平和跟踪语音发展等应用。

这篇帖子回答的问题

ChildVox基准测试主要评估模型对儿童哪些声音类型的理解能力？
ChildVox基准测试的规模和评估结果是什么？

核心观点

ChildVox基准测试整合了17个数据集和20多个子任务，用于系统评估AI模型对儿童声学信号的理解。
评估结果表明，该基准测试支持使用高性能模型评估儿童语言水平和跟踪语音发展。

FAQ

Q: ChildVox基准测试的评估对象有哪些？: A: 该基准测试评估了包括自监督模型、面向自动语音识别的模型以及大型音频语言模型在内的多种基础模型。

关键实体

ChildVox
HuggingFace Daily Papers