FlowPortrait：字节跳动Seed团队提出基于强化学习的音频驱动肖像视频生成框架

原帖

**FlowPortrait：基于强化学习的音频驱动肖像视频生成**

_FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation_

> 字节跳动Seed团队提出FlowPortrait框架，这是一种基于强化学习的音频驱动肖像动画生成方法。该方法利用多模态大语言模型构建了符合人类感知的评估系统，用于衡量唇形同步准确性、表现力和运动质量，并结合感知与时序一致性正则化项形成复合奖励信号，通过组相对策略优化对生成器进行后训练。实验表明，FlowPortrait能持续生成更高质量的对话视频，验证了强化学习在肖像动画中的有效性。

**来源信息**
- **来源**：字节 Seed：Research Papers（网页内嵌数据）
- **分类**：论文
- **原文**：[打开原文](https://arxiv.org/pdf/2603.00159)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle平台报道，字节跳动Seed团队提出FlowPortrait框架，该方法是一种基于强化学习的音频驱动肖像动画生成方法。它利用多模态大语言模型构建符合人类感知的评估系统，用于衡量唇形同步准确性、表现力和运动质量，并通过组相对策略优化对生成器进行后训练。

答案说明

FlowPortrait是由字节跳动Seed团队提出的一个基于强化学习的音频驱动肖像视频生成框架。该方法的核心是利用多模态大语言模型构建评估系统，结合感知与时序一致性正则化项形成复合奖励信号，并通过组相对策略优化进行后训练，以生成更高质量的对话视频。

这篇帖子回答的问题

FlowPortrait框架是如何利用强化学习来生成音频驱动的肖像视频的？

核心观点

FlowPortrait框架的核心创新在于利用多模态大语言模型构建符合人类感知的评估系统，作为强化学习中的奖励信号。

FAQ

Q: FlowPortrait方法使用了什么技术来评估生成质量？: A: 该方法利用多模态大语言模型构建了符合人类感知的评估系统，用于衡量唇形同步准确性、表现力和运动质量。

关键实体

字节跳动Seed团队
FlowPortrait