近日,一组来自大学和私营企业的科研人员发布了名为Genesis的全新开源计算机模拟系统。该系统能够让机器人在模拟环境中练习任务,速度比现实世界快43万倍。研究人员还计划引入一个AI代理,通过文本提示生成3D物理模拟。
加速模拟意味着用于操控机器人的神经网络可以在短短几个小时的实际计算机时间内,获得相当于数十年学习拾取物体、行走或操作工具的虚拟经验。Genesis论文合著者Jim Fan在X平台上写道:“一小时的计算时间可以让机器人获得10年的训练经验。这就像Neo在《黑客帝国》的道场里眨眼间学会武术一样。”Fan之前曾在英伟达参与过多个机器人模拟项目。
Genesis的出现正值机器人研究人员寻求更佳工具,以便在将机器人部署到现实世界之前,在虚拟环境中测试和训练它们。快速、准确的模拟有助于机器人更快地学习复杂任务,同时减少对昂贵物理测试的需求。例如,在该项目的页面上,研究人员展示了在Genesis物理模拟中开发的技术(例如后空翻)被应用于四足机器人和软体机器人身上。
由卡内基梅隆大学周贤领导的研究小组开发的Genesis平台,其物理计算速度比现有的机器人模拟器(如英伟达的Isaac Gym)快最多80倍。它使用类似于驱动视频游戏的显卡,一次运行多达10万个模拟副本。这对于训练未来控制现实世界机器人的神经网络至关重要。Fan在他的X帖子中写道:“如果一个AI可以控制1000个机器人执行100万项技能,在10亿种不同的模拟中进行训练,那么它可能‘在我们的现实世界中也能正常工作’,而现实世界只不过是浩瀚的可能性空间中的一个点而已。这就是模拟对机器人如此有效的根本原理。”
动态世界的生成
该团队还宣布,他们正在开发生成所谓的“4D动态世界”的能力——或许使用“4D”是因为他们可以模拟一个随时间推移而运动的3D世界。据报道,该系统将利用视觉语言模型(VLMs)根据文本描述(类似于其他AI模型中的“提示”)生成完整的虚拟环境,利用Genesis自己的模拟基础设施API来创建这些世界。
据报道,AI生成的虚拟世界将包含真实的物理规则、摄像机运动和物体行为,所有这些都来自文本命令。然后,该系统创建物理上精确的光线追踪视频和数据,机器人可以利用这些数据进行训练。当然,我们还没有测试过这一点,因此目前这些说法应该持保留态度。
这种基于提示的系统可以让研究人员通过键入自然语言命令来创建复杂的机器人测试环境,而不是手动编程。“传统上,模拟器需要艺术家投入大量的人工:3D资产、纹理、场景布局等等。但工作流程中的每个组件都可以自动化,”Fan写道。
利用其引擎,Genesis还可以生成角色运动、交互式3D场景、面部动画等,这可能允许为创意项目创建艺术资产,但也可能导致未来出现更逼真的AI生成的游戏和视频,在数据中构建一个模拟世界,而不是像视频合成扩散模型那样操作像素的统计外观。
虽然生成系统尚未包含在目前GitHub上可用的代码中,但研究团队计划在未来发布它。
训练未来的机器人(使用Python)
Genesis仍在GitHub上积极开发中,团队接受社区贡献。
该平台在用于机器人训练的3D世界模拟器中脱颖而出,因为它使用Python作为其用户界面和核心物理引擎。其他引擎使用C++或CUDA进行底层计算,同时将其包装在Python API中。Genesis采用了Python优先的方法。
值得注意的是,Genesis平台的非专有性质使得任何研究人员都可以通过简单的Python命令免费访问高速的机器人训练模拟,这些命令可以在配备现成硬件的普通计算机上运行。Fan在宣布Genesis的帖子中表示,以前运行机器人模拟需要复杂的编程和专门的硬件,这种情况不应该存在。“机器人学应该成为全人类拥有的登月计划,”他写道。