机器人通过语义地图实现科幻电影里的情景

2017-11-16

    斯坦福大学和普林斯顿大学的研究人员将迄今为止最大的RGB-D视频数据集放在一起,在全球700多个不同的地点进行1500多次扫描,总共观看了250万次。

这个名为ScanNet的数据集已经在语义上被注释用于研究项目。这类数据的目的当然是教导我们未来的机器人能够看到并理解他们进而捕获的更好数据。在这个过程中,我们基于计算机的空间理解将显着增加。

 

模式识别

计算机处理器可以比人脑更快地处理复杂的数学问题,但它是一个完全线性的过程,一次处理一个问题。另一方面,大脑同时处理许多问题 - 数学和其他 - 处理来自多个来源(感官)的输入,对输入的理解,然后是响应和输出。

用计算机重新创造我们的大脑的研究已经完成,它花费了82,944个处理器和40分钟的时间来产生相当于1秒钟的大脑活动。复杂的模式识别,一次使用多种感官,是我们的大脑和计算机处理器的主要区别之一。

图片注释:使用3D CNN架构在ScanNet中进行3D扫描的语义体素标记。 体素颜色表示预测或基础真实类别“。通过ScanNet的图像

 

举一个简单的例子,当你看到“坐,坐,坐,好狗狗”这句话的时候会想到什么。

很多回应的人都不记得与这句话有关的节目,但是他们可以记住剪辑结尾处的树皮或者嘴里飞盘的狗的图片。这是模式识别的一个很好的例子。

ScanNet的过程

研究小组开发了一套完整的从头到尾的流程。整个系统对于这篇文章来说是非常复杂和过于技术性的,但是这里对他们在白皮书中发布的内容进行了简化。从20台iPad Air 2平板电脑开始,配备与枕形桥相同的结构传感器,未经训练的用户只需指出并拍摄了一个区域的视频。然后将文件存储在iPad上,直到可以上传。

 

我们的传感器单元使用128 GB iPad Air2设备,可以记录几个小时的RGB-D视频。在实践中,瓶颈是电池寿命而不是存储空间。

 

图片注释:数据收集过程。

 

一旦被用户上传到处理服务器,它们就会通过三维重建过程进行处理,然后通过体积融合,体素散列和各种过滤处理的复杂组合,在分割过程中对其进行分解。

在这一点上,通过基于网络的界面,语义标注和标签处理通过AmazonMechanical Turk(被众包。一旦标签完成,500名观众就会得到一个完整的标注位置,他们将匹配数据库中的3D模型,并将其与场景中的物体对齐。

这对混合现实用户意味着什么?

随着谷歌的图像识别和Facebook的面部识别,计算机识别2D图像模式是相当普遍的。由于像Kinect中使用的RGB-D相机,HoloLens中的红外深度传感器以及ScanNet等数据集,在不久的将来,学习识别3D空间视觉模式的计算机将成为现实。

未来将会有深度定义和详细的空间地图和丰富的物联网信息,以帮助轻松管理您在个人和共享混合现实空间中的日常需求。系统会知道你什么时候在厨房里,并且可以提出建议,帮助你根据缺失但常用的物品制作购物清单等等。