视频生成

First-Principle 上关于「视频生成」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

这篇来自HuggingFace Daily Papers的论文介绍了Warp-as-History方法，该方法通过将摄像机运动引起的图像扭曲转化为'摄像机扭曲伪历史序列'，实现了无需训练或架构修改的摄像机控制视频生成。仅用一个摄像机标注视频进行LoRA微调即可提升泛化能力。

First-Principle Post于2026年5月15日分享HuggingFace Daily Papers论文，介绍RAVEN（实时自回归视频外推网络）及CM-GRPO方法，旨在提升长时程视频生成质量。

本文介绍了针对实时交互视频生成需求提出的Causal Forcing++新方法，该方法通过因果一致性蒸馏技术实现1-2步采样，并在视频质量指标和首帧延迟上相比基线方法有显著提升。

2026年5月15日，HuggingFace Daily Papers社区热门论文介绍了PhyMotion，一种结构化3D运动奖励机制，通过物理模拟器MuJoCo从运动学合理性、接触与平衡一致性、动态可行性三个维度评估人体动作质量，用于提升视频生成的真实性。

SANA-WM是一个26亿参数的开源世界模型，专为生成一分钟高保真720p视频而原生训练，具备精确的相机控制能力。该模型在数据、训练计算和推理硬件上均展现出显著效率优势，其吞吐量据称是先前开源基线的36倍。