**FlowPortrait:基于强化学习的音频驱动肖像视频生成**

_FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation_

> 字节跳动Seed团队提出FlowPortrait框架,这是一种基于强化学习的音频驱动肖像动画生成方法。该方法利用多模态大语言模型构建了符合人类感知的评估系统,用于衡量唇形同步准确性、表现力和运动质量,并结合感知与时序一致性正则化项形成复合奖励信号,通过组相对策略优化对生成器进行后训练。实验表明,FlowPortrait能持续生成更高质量的对话视频,验证了强化学习在肖像动画中的有效性。

**来源信息**
- **来源**:字节 Seed:Research Papers(网页内嵌数据)
- **分类**:论文
- **原文**:[打开原文](https://arxiv.org/pdf/2603.00159)