**DynaFLIP:通过三模态动态引导表示重新思考机器人感知**

_DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation_

> 本文提出了DynaFLIP,一种动态感知的多模态预训练框架,旨在将运动理解融入机器人感知的核心环节。该框架从异构的人类和机器人视频中构建图像-语言-3D流三元组,以此作为训练监督信号,仅使用图像编码器即可学习到关注控制相关区域的表示。其核心思想是通过最小化共享超球面空间中的单形体积来增强三种模态的对齐,并结合余弦正则化和对比学习目标来避免几何歧义和模型坍缩。实验表明,DynaFLIP生成的表示在多种下游策略(包括视觉语言动作模型VLA)中均优于基线,在分布外场景下提升高达22.5%,证明了将动作相关的动态变化编码到视觉表示中能有效提升机器人的泛化能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30350)