一种用于重建环境和表示物理空间布局的新方法。
编译|栗子
被Meta寄予厚望的元宇宙核心项目Reality Labs近期有了新进展。
3月22日凌晨,Meta通过社交媒体发布了Reality Labs最新研究成果“SceneScript”及相关视频。
据官方介绍,SceneScript是一种用于重建环境和表示物理空间布局的新方法,能够使用端到端机器学习直接推断房间的几何形状并使用语言表示它。与以前的方法相比,这使得物理场景的表示更加紧凑、完整、可解释和可扩展。
SceneScript会像大语言模型一样使用下一个token进行预测,但它预测的是建筑tokens,而不是自然语言。为了训练它,Meta创建了包含10万个独特室内环境的综合数据集。
Meta相信,SceneScript是AR眼镜发展之路上的一个重要里程碑,它将连接物理世界和数字世界。“我们对这项工作将如何帮助塑造人工智能和机器学习研究的未来感到兴奋。”
以下来自Meta官网发布的博客,甲子光年编译整理:
想象一下,有一副时尚、轻便的眼镜,它将情境化的人工智能与显示器结合在一起,可以在你需要时无缝地为你提供实时信息,并在你日常活动中主动帮助你。为了让这样一副增强现实眼镜成为现实,系统必须能够理解你的物理环境布局以及世界在 3D 中的形状。这种理解将使 AR 眼镜能够根据你和你的个人环境来定制内容,例如将数字覆盖与你的物理空间无缝融合,或者为你提供逐步的方向指导,帮助你导航不熟悉的地点。
然而,构建这些 3D 场景表示是一项复杂的任务。当前的混合现实头显,如 Meta Quest 3,基于相机或 3D 传感器的原始视觉数据创建物理空间的虚拟表示。这些原始数据被转换成一系列描述环境的不同特征的形状,如墙壁、天花板和门。通常,这些系统依赖于预定义的规则将原始数据转换为形状。然而,这种启发式方法往往会导致错误,尤其是在具有独特或不规则几何形状的空间中。
今天,Reality Labs Research公布了SceneScript,这是一种使用语言生成场景布局和表示场景的新方法。
SceneScript 并非使用硬编码规则将原始视觉数据转换为房间建筑元素的近似值,而是通过端到端机器学习直接推断出房间的几何结构。
这使得物理场景的表示更加简洁,将内存需求降低至仅几个字节;更加完整,从而产生清晰的几何形状,类似于可缩放矢量图形;更重要的是,它具有可解释性,这意味着我们可以轻松读取和编辑这些表示。
像Llama这样的大型语言模型使用一种称为下一个token预测的技术进行操作,在这种技术中,AI模型根据前面的单词预测句子中的下一个单词。例如,如果你输入了“猫坐在……”,那么该模型会预测下一个单词可能是“垫子”或“地板”。
SceneScript利用了LLM使用的下一个token预测的相同概念。然而,它不是预测一个通用的语言token,而是预测下一个建筑token,如“墙”或“门”。
通过给网络大量的训练数据,SceneScript模型学会了如何将视觉数据编码为场景的基本表示,然后将其解码为描述房间布局的语言。这使得SceneScript能够从视觉数据中解释和重建复杂的环境,并创建有效描述其分析的场景结构的文本描述。
然而,团队需要大量的数据来训练网络并教它如何布置物理空间——他们需要确保他们在保护隐私。
这提出了一个独特的挑战。
虽然大型语言模型依赖于大量通常来自网络上各种公开文本来源的训练数据,但用于训练端到端模型所需的规模,目前还没有这样的物理空间信息库。因此,Reality Labs研究团队必须找到另一种解决方案。
SceneScript团队没有依赖来自物理环境的数据,而是创建了一个名为Aria合成环境的室内环境合成数据集。这个数据集包括100,000个完全独特的室内环境,每个环境都使用SceneScript语言进行描述,并与模拟视频配对,模拟视频展示了在每个场景中行走的过程。
通过每个场景渲染的视频是使用与Project Aria相同的传感器特性进行模拟的,Project Aria是Reality Labs Research用于加速AI和ML研究的眼镜。这种方法允许SceneScript模型在保护隐私的条件下完全在模拟中进行训练。然后可以使用来自Project Aria眼镜的实际世界镜头对模型进行验证,确认模型能够泛化到实际环境。
去年,我们向学术研究人员提供了Aria 合成环境数据集,我们希望这将有助于加速这一令人兴奋的研究领域的公共研究。
SceneScript的另一个优势是其可扩展性。
只需在描述Aria合成环境数据集中门的场景语言中添加一些额外的参数,就可以训练网络准确地预测物理环境中门打开或关闭的程度。
此外,通过向建筑语言添加新功能,可以准确地预测物体的位置,甚至可以进一步将这些物体分解为其组成部分。
例如,沙发可以在SceneScript语言中表示为一组几何形状,包括垫子、腿和手臂。这种细节级别最终可以被设计师用来创建真正定制化的AR内容,适用于广泛的物理环境。
5.加速AR,推动LLM发展,以及在AI和ML研究中推进最新技术
SceneScript可以为MR耳机和未来的AR眼镜解锁关键用例,例如生成提供视障人士逐步导航所需的地图,正如卡内基梅隆大学在2022年所展示的那样。
SceneScript还为LLM提供了推理物理空间所需的词汇。这最终可能解锁下一代数字助手的潜力,为他们提供回答复杂空间查询所需的物理世界背景。
例如,有了推理物理空间的能力,我们可以向聊天助手提出问题,比如“这张桌子适合放在我的卧室里吗?”或者“粉刷这个房间需要多少罐油漆?”而不是必须找到卷尺,记下测量结果,然后尽力用纸上的数学估算答案,访问SceneScript的聊天助手可以在几分之一秒内得出答案。
我们相信SceneScript代表了通往真正的AR眼镜的重要里程碑,这些眼镜将连接物理和数字世界。随着我们在Reality Labs Research深入研究这种潜力,我们对这种开创性方法将如何帮助塑造AI和ML研究的未来感到兴奋。
原文链接:
用户评论