具体来说,该团队开发了一套大型多模态数据集——IKEA Video Manuals,并已成功入选NeurIPS。这一数据集覆盖了六大类别的IKEA家具,每一类家具都配备了完整的3D模型、组装说明书以及实际组装视频。数据集的安装子步骤精细划分,总数高达一千多个。
知名科技博主Robert Scoble表示,有了这个数据集,机器人将能够自学组装家具的技能。而团队成员、斯坦福访问学者李曼玲也强调了这是空间智能领域的一项重要突破。
IKEA Video Manuals数据集不仅包含了安装说明书、真实组装视频和3D模型三种模态信息,还对安装步骤进行了详细划分,包括主要步骤和子步骤,并标注了对应的视频位置。整个数据集有137个手册步骤,根据安装视频细分为1120个具体子步骤,完整记录了组装过程。
通过6D Pose追踪技术,每个部件的空间轨迹被精确记录,从而在视频帧、家具组装说明书和3D模型之间建立了密集的对应关系。这一数据集是在IKEA-Manual和IAW(IKEA Assembly in the Wild)两个数据集的基础上建立的。
其中,IKEA-Manual提供了模型及其对应说明书,而IAW则包含了大量用户在实际环境中组装宜家家具的视频片段。这些视频来自90多个不同的环境,包括室内外场景和不同光照条件,真实反映了家具组装的多样性。
为了应对真实视频带来的挑战,研究团队建立了一套可靠的标注系统。他们还开发了一个显示辅助2D和3D信息的Web界面,并基于Segment Anything Model(SAM)模型进行交互式掩码注释。
基于IKEA Video Manuals数据集,团队设计了多个核心任务来评估AI系统在理解和执行家具组装以及空间推理方面的能力。例如,基于3D模型的分割与姿态估计等任务。实验结果显示,在真实组装场景中,最新的分割模型和姿态估计模型仍面临遮挡问题、特征缺失以及特殊拍摄角度等挑战。
团队还提出了一个创新的基于视频的形状组装系统。尽管实验中存在一些挑战和局限性,如GPT-4V在关键帧检测方面的不足以及姿态估计模型的局限性,但这些实验结果仍然揭示了当前AI模型在视频理解和空间推理方面的不足。
文章提到了一些研究人员的背景信息,包括吴佳俊教授和李曼玲学者的学术背景和研究经历。还有其他多位研究人员参与了此项目。
—— 完结 ——