DynaFLIP:三模态动态引导的机器人感知预训练框架
原帖
**DynaFLIP:通过三模态动态引导表示重新思考机器人感知**
_DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation_
> 本文提出了DynaFLIP,一种动态感知的多模态预训练框架,旨在将运动理解融入机器人感知的核心环节。该框架从异构的人类和机器人视频中构建图像-语言-3D流三元组,以此作为训练监督信号,仅使用图像编码器即可学习到关注控制相关区域的表示。其核心思想是通过最小化共享超球面空间中的单形体积来增强三种模态的对齐,并结合余弦正则化和对比学习目标来避免几何歧义和模型坍缩。实验表明,DynaFLIP生成的表示在多种下游策略(包括视觉语言动作模型VLA)中均优于基线,在分布外场景下提升高达22.5%,证明了将动作相关的动态变化编码到视觉表示中能有效提升机器人的泛化能力。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30350)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了DynaFLIP,一种通过图像-语言-3D流三元组进行多模态预训练的机器人感知框架。该框架将运动理解融入感知核心,在分布外场景下的下游任务中相比基线提升了22.5%。
答案说明
DynaFLIP是一种动态感知的多模态预训练框架,通过构建图像-语言-3D流三元组作为监督信号,使图像编码器能学习到关注控制相关区域的表示。其核心是通过最小化共享超球面空间中的单形体积来增强对齐,并利用余弦正则化和对比学习避免歧义。实验显示,该框架在多种下游策略中优于基线,分布外场景下提升高达22.5%。
这篇帖子回答的问题
- DynaFLIP框架的核心设计思想是什么?
- DynaFLIP在实验中的表现如何?
核心观点
- DynaFLIP框架通过构建图像-语言-3D流三元组作为监督信号,将运动理解融入机器人感知的多模态预训练中。
- 将动作相关的动态变化编码到视觉表示中,能有效提升机器人在分布外场景下的泛化能力。
FAQ
- Q: DynaFLIP框架如何处理多模态对齐问题?
- A: 通过最小化共享超球面空间中的单形体积来增强图像、语言和3D流三种模态的对齐,并结合余弦正则化和对比学习目标来避免几何歧义和模型坍缩。
- Q: DynaFLIP框架的学习监督信号是什么?
- A: 从异构的人类和机器人视频中构建的图像-语言-3D流三元组。
关键实体
- DynaFLIP
- 视觉语言动作模型VLA