HoloLens2的幕后故事:人工智能如何打造微软的普适计算愿景
李北辰华盛顿州,雷德蒙德——当人们第一次戴上全新HoloLens 2时,设备会自动开始识别他们:它会测量包括用户手的准确形状、精准的瞳距在内的一切数据。在英国剑桥领导HoloLens科学团队的资深科学家Jamie Shotton表示,实现这些功能的人工智能研发过程“惊人的复杂”,但如果想让使用该设备的体验变成一种“本能”体验,这些研发工作至关重要。
“我们希望用户不用专门学习,就知道如何使用HoloLens。”他补充到:“我们知道如何与现实世界中的事物进行交互:我们拿起东西,按下按钮,然后指向目标物。我们致力于将其直接转化为混合现实。”
微软今天宣布HoloLens 2正式开始向客户发货。这款内置传感器的全息计算头戴显示设备利用人工智能代替时间和空间,创造出一个由人、位置和物体组成的混合现实,以促进我们最基本的人类冲动之一:交换知识。
微软技术院士Alex Kipman表示,我们希望这款头戴显示设备可以展示智能边缘设备的优秀能力——支持人工智能技术,即使没有稳定的互联网连接,也能收集和处理数据——并在联网时与智能云共享部分或全部数据。
不久之前,Kipman在他办公室的数字白板上勾勒了这种普适计算结构的示意图。他说:“HoloLens是微软首个基于这种世界观开发的设备。” HoloLens 2中的人工智能与微软云计算平台Azure的人工智能功能相结合,让那些需要腾出双手操作的一线工作人员能够学习有助于职业发展的技能,并使地球两端说不同语言的人能够通过对物体的互通认知进行协作。
微软公司Microsoft Azure部门副总裁Julia White说:“你可以通过HoloLens做真正有趣的事,也可以通过云来做真正有趣的事。但是当这两者相结合时,你会发现,它改变了人们实际做事的方式方法。”
通过人工智能交付混合现实
为了实现与HoloLens 2的自然交互,Shotton和他的同事共同开发、训练人工智能模型,并将其部署在设备上,以跟踪人们的手部动作和视线,比如人们可以感知漂浮在自己眼前的全息影像并伸手调整大小或对其重新定位。
为了构建手部跟踪系统,该团队制作了一个带有向内指向的圆顶摄像头设备,用来记录人们各种各样的手形。之后团队会使用离线的云处理技术来构建能够代表所有人手形和动作的3D模型。通过这个3D模型,团队能够使用计算机图形来渲染逼真的合成人手图像和合成标签,从而使该模型能够适用于各种手形、姿势和运动。Shotton说:“你可以有效地生成无穷多的训练数据。”
该团队使用这些数据来训练一个紧凑型深度神经网络,这是一种适用于HoloLens的机载处理器的人工智能算法,能够对来自设备的深度传感器的每一帧画面进行高效处理。当新用户戴上HoloLens 2时,系统会利用这个神经网络构建一个适合用户手掌大小的个性化3D模型,从而实现与全息影像自然交互所需的精确跟踪。
Shotton的团队采用了类似的方法来构建和训练眼球跟踪模型,密切关注瞳孔间距——即双眼瞳孔中心之间的距离,瞳距因人而异,它会影响一个人看近处或远处物体的方式。最终这个眼球跟踪模型,可以让HoloLens 2能够在客户面前精确显示全息影像,让他们用手和眼睛同HoloLens 进行交互和操作。
Shotton表示:“眼球追踪、全息影像和现实世界的匹配、人手的互动,所有这一切,如果没有足够的精度,根本谈不上本能自然的交互体验。”
贯穿边缘到云端的人工智能
不仅仅是手部和眼球跟踪功能,其它的智能功能,比如SLAM(同步定位与地图构建),都已经被嵌入到HoloLens 2的第二代全息处理单元中,该芯片也被称为HPU2.0。
Kipman把这种设备上的人工智能功能称作感知人工智能。他说:“感知就像爬行动物的大脑,它执行的是脑部本能、想都不用想的操作。”对于人来说,这类智能使我们的心脏保持跳动、我们的肺部自主呼吸、我们的眼睛进行微跳动以测量景深。比如当我们口渴并想要喝水时,我们的眼睛会本能地测量到手举水杯到唇边的距离。
HoloLens 2上的感知人工智能使人们能够操控全息影像并与之进行交互,而无需担心所谓的延迟——通常,数据传输到云端、进行处理并返回到边缘需要花数百毫秒的时间。当你在全息影像上按下一个按钮,或者用眼球在全息影像上浏览文本时,“即使几十毫秒也会产生显著的感知差异。”Shotton指出:“运转时长至关重要。”
对隐私的保护是在设备上进行本地人工智能计算的另一个原因,例如HoloLens 2用来验证客户身份的虹膜扫描信息——人们可能不希望将这类私人数据发送到云端。然而,对于许多其它类型的数据来说,将其发送到云端是有好处的:因为一旦这些数据到达云端,客户就可以利用Azure AI和混合现实服务,将他们设备上的数据与整个普适计算结构中的数据相结合,“这使很多更高级的运算和认知功能得以运行。”Kipman说。
云端协作
微软混合现实与人工智能苏黎世实验室主任Marc Pollefeys表示,智能云赋能的全息计算的一个关键优势就是,它可以与其他拥有HoloLens或类似设备的人共享信息。Pollefeys正在领导一个团队研发用于混合现实云服务的核心计算机视觉算法——Azure Spatial Anchors,该服务能够让全息影像保留并锁定在现实世界中,供任何具有适当访问权限的人查看。
比如说,Spatial Anchors技术让工厂管理者能够把全息影像放在装配线上的设备旁边,包含重要的实时操作和维护信息,任何获得认证并拥有混合现实设备的工人都可以访问这些信息。
Pollefeys说:“如果我只能在我自己的设备上回看这些信息,那这样的全息影像就毫无意义。但是,如果我能够在全息影像中对现实世界进行批注和标记,并且公司里任何有访问权限的人都可以看到这些信息,那么这就实现了价值飞跃。”
为了创建这一功能,Pollefeys和他的团队开发了人工智能计算机视觉算法,该算法可处理来自传感器的数据,提取周围环境的3D几何信息,并将其整合、上传到云平台,创建出基于这些相关区域数字孪生系统或视图。
Pollefeys指出,HoloLens总是通过解读3D或空间信息的方式,了解其所在的运行环境。Azure Spatial Anchors创建、优化这些视图,并在各种设备上进行共享,这就是为什么要把来自各个设备的视图拼凑在一起并存储在云中。他说:“只在一台设备上存储这些数据是没有意义的。就好比我有一小块拼图、其他人也有一小块拼图,只有当我们把各自设备中生成的拼图整合到一起,才可以覆盖整个空间。”
随着各种支持混合现实功能的设备,包括HoloLens以及适当配置的手机、平板电脑和笔记本电脑,绘制出的环境信息不断整合,并共享在云端,这些视图将随着时间的推移变得更加详实、更加精确、更加强大。
以工厂为例,随着越来越多有访问权限的工人用自己的设备查看全息影像,工厂车间的整体视图将会不断地改进,最终完整全息影像将会被经理放置在装配线设备的上方。该功能还支持其它一些场景,例如:建筑师和客户开会时,每个参会人员都佩戴一个混合现实设备,将可以从自己的视角查看该建筑的全息3D设计图,并与之进行交互。
Julia White指出,Azure包含预构建服务,可在HoloLens和任何其它混合现实设备上,包括运行iOS和安卓操作系统的智能手机和平板电脑,为这类体验编写应用程序。她指出:“这种协作体验不仅仅限于HoloLens。而且开发者在编写这些令人惊叹的应用时的成本、操作难度和技能要求都随之大大降低。” 例如,跨设备和平台功能可以优化《我的世界:地球》的游戏体验。将流行的视频游戏与混合现实融合在一起,一个玩家可以在现实世界中搭建并放置可持久存在的虚拟结构,这样,其他玩家就可以在自己的设备上与之进行交互。
Julia White说:“我们都参与其中,因为它基于云技术,能够被各种类型的设备解读和诠释。”
以人为本的技术
Kipman指出,要想让HoloLens达到我们预想的那样去工作,支持这种体验的技术就必须以类似人类的方式来理解这个世界。因此,他和微软各个部门的同事合作,一同在这普适计算的数据网中开发、部署这些技术,并充分利用人工智能技术研究解决方案——从HoloLens 2的芯片到Azure AI和混合现实服务。
我们的目光再次回到Kipman的数字白板,他现在已经勾勒出一个普适计算的愿景,这个白板上有文字、方框、箭头,还有一幅简笔画——画中的两人在一个智能设备旁交谈。
他说,这就是普适计算的终极目标——让人们以自然的方式与他人进行交互。为了强调这一点,他特意停顿了一下,与观众进行眼神交流,并说:“希望你们能从这次的谈话中得到更多收获,因为在真实世界中大家现在就在我身边。”
他继续说道:“我们本可以通过电话或者Skype来交流,我甚至可以录下我的演讲,然后把磁带寄给你们。但大家没有选择这么做,而选择了面对面交流。为什么?因为这就是我们人类习惯的做事方式。”
“但这样面对面的缺点是,大家必须和我同时在同一个地点。而全息技术的力量就在于,它能够帮助我们打破空间和时间的界限。”