Code-as-Room框架:基于多模态大语言模型从俯视图生成3D室内房间
原帖
**Code-as-Room:通过智能体代码合成从俯视图生成3D房间**
_Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis_
> 本文提出了一种名为Code-as-Room的框架,它基于多模态大语言模型(MLLM),能够通过解析俯视图图像并生成Blender代码来创建逼真、功能齐全的3D室内房间模型。该方法旨在解决现有基于文本或图像的3D房间生成方法在捕捉精确空间信息或处理复杂任务时存在的稳定性差、易陷入循环等问题。框架引入了一个结构化的执行框架和跨阶段记忆模块,以提升生成过程的连贯性和可靠性。论文还引入了专门的基准测试集来评估此类基于代码的3D合成方法。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18451)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月19日,HuggingFace Daily Papers分享了一篇论文,介绍了Code-as-Room框架。该框架利用多模态大语言模型解析俯视图图像,生成Blender代码来创建逼真、功能齐全的3D室内房间模型,旨在解决现有方法稳定性差、易陷入循环等问题。
答案说明
Code-as-Room是一个基于多模态大语言模型(MLLM)的框架,它通过解析俯视图图像并生成Blender代码,来创建逼真、功能齐全的3D室内房间模型。该框架引入了结构化的执行框架和跨阶段记忆模块,以提升生成过程的连贯性和可靠性,并提出了专门的基准测试集来评估此类基于代码的3D合成方法。
这篇帖子回答的问题
- Code-as-Room框架是如何工作的?
- Code-as-Room框架旨在解决现有3D房间生成方法的哪些问题?
核心观点
- Code-as-Room框架利用多模态大语言模型(MLLM)解析俯视图图像并生成Blender代码,以创建3D室内房间模型。
- 该框架引入了结构化的执行框架和跨阶段记忆模块,以提升生成过程的连贯性和可靠性,并提出了专门的基准测试集。
FAQ
- Q: Code-as-Room框架的核心是什么?
- A: Code-as-Room的核心是一个基于多模态大语言模型(MLLM)的框架,它通过解析俯视图图像并生成Blender代码来创建3D室内房间模型。
- Q: Code-as-Room解决了现有3D房间生成方法的什么问题?
- A: 该方法旨在解决现有基于文本或图像的3D房间生成方法在捕捉精确空间信息或处理复杂任务时存在的稳定性差、易陷入循环等问题。
关键实体
- Code-as-Room
- 多模态大语言模型(MLLM)
- Blender
- HuggingFace Daily Papers