segmentfault思否 – 石高峰经验网

具体来说，该团队开发了一套大型多模态数据集——IKEA Video Manuals，并已成功入选NeurIPS。这一数据集覆盖了六大类别的IKEA家具，每一类家具都配备了完整的3D模型、组装说明书以及实际组装视频。数据集的安装子步骤精细划分，总数高达一千多个。

知名科技博主Robert Scoble表示，有了这个数据集，机器人将能够自学组装家具的技能。而团队成员、斯坦福访问学者李曼玲也强调了这是空间智能领域的一项重要突破。

IKEA Video Manuals数据集不仅包含了安装说明书、真实组装视频和3D模型三种模态信息，还对安装步骤进行了详细划分，包括主要步骤和子步骤，并标注了对应的视频位置。整个数据集有137个手册步骤，根据安装视频细分为1120个具体子步骤，完整记录了组装过程。

通过6D Pose追踪技术，每个部件的空间轨迹被精确记录，从而在视频帧、家具组装说明书和3D模型之间建立了密集的对应关系。这一数据集是在IKEA-Manual和IAW（IKEA Assembly in the Wild）两个数据集的基础上建立的。

其中，IKEA-Manual提供了模型及其对应说明书，而IAW则包含了大量用户在实际环境中组装宜家家具的视频片段。这些视频来自90多个不同的环境，包括室内外场景和不同光照条件，真实反映了家具组装的多样性。

为了应对真实视频带来的挑战，研究团队建立了一套可靠的标注系统。他们还开发了一个显示辅助2D和3D信息的Web界面，并基于Segment Anything Model（SAM）模型进行交互式掩码注释。

基于IKEA Video Manuals数据集，团队设计了多个核心任务来评估AI系统在理解和执行家具组装以及空间推理方面的能力。例如，基于3D模型的分割与姿态估计等任务。实验结果显示，在真实组装场景中，最新的分割模型和姿态估计模型仍面临遮挡问题、特征缺失以及特殊拍摄角度等挑战。

团队还提出了一个创新的基于视频的形状组装系统。尽管实验中存在一些挑战和局限性，如GPT-4V在关键帧检测方面的不足以及姿态估计模型的局限性，但这些实验结果仍然揭示了当前AI模型在视频理解和空间推理方面的不足。

文章提到了一些研究人员的背景信息，包括吴佳俊教授和李曼玲学者的学术背景和研究经历。还有其他多位研究人员参与了此项目。

—— 完结 ——