**STREAM:一个从流媒体中挖掘高价值任务导向对话的数据中心框架**

_STREAM: A Data-Centric Framework for Mining High-Value Task-Oriented Dialogues from Streaming Media_

> 该论文提出了STREAM框架,旨在解决垂直领域大语言模型面临的高质量任务导向对话数据稀缺问题。该框架利用公开的流媒体(直播和短视频)大规模合成高价值的服务对话,通过从嘈杂的流中挖掘真实交互信号,并结合基于角色的个性化构建与对话蓝图构建来合成对话,同时采用检索增强生成(RAG)支持知识感知的响应。基于此,研究者发布了StreamDial数据集,涵盖汽车、餐厅和酒店等多个领域,包含大量结构化对话会话。评估表明,该数据集能提升对话的内在质量,并改善下游任务(如对话状态跟踪)的模型性能,同时展示了在Qwen3-8B模型上的多语言迁移能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25162)