**教学视听语言模型掌握电影语言**

_Teaching Vision-Language Models to Speak Cinema_

> 卡内基梅隆大学研究团队分享了他们基于CVPR 2026论文的工作,该工作聚焦于构建一个精确的视频语言模型。研究强调了与100多位专业创作者合作一年的经验,探讨了如何通过人机协作监督来扩展模型能力,而非单纯扩展模型规模。文章指出,当前的视频生成模型在理解并执行复杂的电影镜头语言(如变焦推拉、焦点转移、荷兰角等)方面仍与专业电影制作人有显著差距,而他们的工作旨在弥合这一鸿沟。

**来源信息**
- **来源**:CMU:Machine Learning Blog
- **分类**:论文
- **发布时间**:2026-05-14 11:06(北京时间)
- **原文**:[打开原文](https://blog.ml.cmu.edu/2026/05/13/teaching-vision-language-models-to-speak-cinema)