远落后于VR，AR还面临三大挑战：视场、分类、自适应设计-VR日报

远落后于VR，AR还面临三大挑战：视场、分类、自适应设计

作者：发布时间：2017-09-30 09:18:17来源：yivian

由于苹果和谷歌AR追踪技术已经掌握在数以百万计的开发者和用户手中，市场对此产生了大量的关注和报道，而你可能会认为我们一直幻想的沉浸式增强现实体验即将到来。尽管我们比以往任何时候都更加接近于这个未来，但事实上，沉浸式增强现实在成为主流之前仍需要多年的研发和设计工作。以下我们将和大家一起看看当前增强现实技术正在面临的一些关键挑战。

1. 沉浸式视场

在看完酷炫的ARKit演示视频后，我们很容易想象完全占据视场的全屏幕视图将有多么神奇。但现实情况是，即便是当前最优秀的便携式AR头显开发套件，其视场仍十分有限(远比不上今天的VR头显，而且部分人认为当前VR头显的视场也并不足够)。

从许多方面来说，HoloLens是当前开发者能够购买的最佳AR头显，但其视场也只不过是34度左右，远比不上谷歌Cardboard(大约为60度)。文章中的视频把全视场与约34度的视场进行了对比，结果显示你在任何时刻内都只能看到增强现实世界的一小部分。

这非常重要，因为要实现合理的沉浸感，增强世界需要与现实世界无缝融合。如果无法立即看到大部分的增强现实世界，你将发现自己需要不自然地“扫描”环境，以找出AR对象的实际位置(就像在使用望远镜一样)，而不是说你的大脑能够直观地映射AR世界，并将其看作是现实世界的一部分。

并不是说34度视场的AR头显毫无用处，它只是不够身临其境而已，因此无法深入地沉浸你的自然感知，同时意味着它不太适合这种直观的人机交互，不是消费者和娱乐用途的理想选择。

有人或许会说，“那拥有90度视场的Meta2 AR头显呢?”这个问题问得好。

没错，Meta 2是目前拥有最大视场的已知AR头显，接近于今天的VR头显。但这款设备的体积十分庞大，也没有在不牺牲大部分视场的情况下小型化其光学系统的明显解决方案。

Meta 2的光学镜头其实很简单。头显那大大的“帽檐”部分包含跟智能手机类似的显示器。大型塑料遮光罩有一部分进行了镀银处理，并将显示屏上的内容反射到用户的眼睛里。缩小头显意味着缩小显示屏和遮光罩，这显然会减少视场。Meta 2对开发者来说可能是非常好的设备，他们愿意为开发未来的设备而忍受笨重的头显，但对消费者而言，Meta必须采用不同的光学解决方案来达到如此视场。

在这方面，ODG正在研发一种类似但体积更小的光学系统，并且能够实现最高为50度的视场，亦即1800美元的R-9 AR眼镜。然而，它们也只能勉强接近于消费者可以接受的尺寸。在另一边，Lumus采用了不同的光学解决方案(波导)，成功在2mm厚的光学元件中实现了55度的视场。

约50度的视场还不错，但远远比不上当前高端VR头显的约110度视场，而且消费者仍在要求更宽的视场。对于真正身临其境的视场而言，我们很难判断一个具体的数字，而Oculus过去曾认为我们需要至少90度视场才能体验真正的临场感(至少在这方面，VR行业中的大部分人都予以认同)。

2. 实时对象分类

苹果的ARKit技术和谷歌的ARCore技术能让你在智能手机上实现一些非常炫丽和新颖的类AR体验，但在大多数情况下，这些系统仅局限于“理解”地板和墙壁等平面。这就是为什么现在iOS上99%的AR应用和演示作品都只能发生在地板或桌子上。

为什么是地板和墙壁呢?因为它们很容易分类。地板或墙壁的平面与另一地板和另一墙壁的平面相同，所以系统有信心假定这一平面能够向所有方面延展，直到与另一平面相交。

注意，我在这里是使用“理解”一词，而不是“感知”或“检测”。这是因为尽管所述系统或许能够“看到”除地板和墙壁以外的对象的形状，但目前无法理解它们。

我们不妨把杯子作为例子。当你看着一个杯子时，你看到的不仅只是一种形状，你对杯子已经十分了解。了解有多少?下面让我们一起看看：

你知道杯子与它所在的平面截然不同。

你知道杯子里面包含一定的空间，可用来容纳液体和其他物体。

你知道我们可以用杯子来喝水。

你知道杯子十分轻便，很容易打翻，从而导致杯内液体或物体溢出。

……

我可以继续往下说…我想说的是，计算机并不知道任何这一切。它只能“看到”一个形状，而不是一个杯子。计算机无法得到杯子内部的完整视图，无法映射出完整的形状，计算机甚至不能假定杯子内部存在一定的空间。计算机也不知道杯子是独立于其所在平面的一个对象。但你知道这一切，因为它是一个杯子。

然而，令计算机视觉能够理解“杯子”，而不仅仅只是看到一个形状，这是一个非常重要的问题。所以这么多年来，我们在AR演示作品中看到人们把基准标记附加到对象身上，以实现更细致的追踪和交互。

为什么如此困难呢?第一个挑战在于分类。杯子有数千种形状，大小，颜色和纹理。部分杯子拥有特殊的属性和特殊的用途(如烧杯)，这意味着不同的杯子被用于不同的场景和背景。

你可以想象编程这么一个可以帮助计算机了解所有上述概念的算法的挑战;你也可以想象编写一个向计算机解释杯子和碗之间区别的代码的挑战。

仅仅只是一个简单的杯子就存在如此巨大的挑战，更不用说世界上那数千或数十万件常见物品。

当前基于智能手机的AR发生在你的环境之中，但你很难与之进行交互。这就是为什么你今天在智能手机上看到的所有AR体验都被固定在地板和墙壁上。这种系统不可能与我们周围的世界进行令人信服的交互，因为虽然系统能够“看到”地板和墙壁，但不能“理解”它们。

对于我们所向往的科幻式AR(亦即AR眼镜能够向我展示杯子里的咖啡的温度;或者说把微波炉的剩余时间显示在其上方)，我们需要系统“理解”更多关于我们周围的世界。

那我们该如何实现呢?答案似乎是所谓的“深度学习”。用于每种对象类型的手写分类算法，甚至是普通的分类算法，这都是一项非常复杂的任务。但我们可以训练计算机的神经网络，把这种神经网络设计为能够随时间发展而自动调整其编程，并可靠地检测周围的常见物品。我们曾报道研究人员已经在开展部分项目，而且看起来十分有希望。在下面这个视频中，系统能够稍微可靠地检测任意人类，雨伞，交通灯和汽车之间的差异。

下一步是大幅扩展可能的分类库，然后把基于图像的检测与从AR追踪系统采集的实时环境映射数据结合起来。一旦我们可以让AR系统开始“理解”我们周围的世界，我们就可以着手解决AR体验的自适应设计挑战。

3. 自适应AR设计

打个比方，网页开发者投入了多年时间来开发可靠，实用的设计规则，使得网站能够适合不同形状的屏幕。但与自适应AR设计相比，前者似乎是一个简单的任务，因为后者需要支持涵盖所有三维的任意环境。

这不是一个简单的问题。即便是已投入多年实践开发时间的VR游戏设计，开发者也仍然在努力解决这一难题的更基础版本：针对不同的游玩空间大小进行设计。一般来说，VR游玩区域的形状是正方形或矩形，而且除了玩家之外没有任何东西。与伴随着一系列并发对象的AR体验而言，这似乎是简单不过的问题。

想象一下：即使是生活在相同公寓单位的人来说，家具和物品的摆放也完全不同。要理解如何创建令人信服的娱乐体验，ar游戏设计将需要很多年时间的发展。从平面到天花板，再到家具，再到数以百万计的家庭，这种娱乐体验需要适应一个看似无限的环境变量(更不用说更加广泛的户外空间)。

你可能会认为开发一款简单的AR射击游戏并不难，比如说在一房一厅的设计中，敌人就从那特定的房间中冒出来。但不要忘记，如果不预先映射环境，AR系统甚至不知道这栋房子存在另一个房间。

让我们假设开发者已经解决了对象分类问题，这样的系统可以在人类层面上理解你周围的对象，那开发者应该如何创建一款利用这些对象的游戏呢?

比如说一款简单的种田游戏，其中玩家需要在家中种植和浇灌AR作物，而这涉及使用真正的杯子来浇灌AR水。但如果你周围没有杯子呢?这样的游戏是否将变得毫无用处?答案是否定的，开发者都是聪明人，比如说玩家可以把闭合的拳头作为杯子的替代品，当倾斜拳头时，AR水就会倒出来。

所以我们现在可以栽种作物。美国开发者认为，每个人都应该有足够的空间来种植10排玉米;但在中国，我们居住的小型公寓不适合种植10排玉米，因为大部分人没有多余的卧室来进行播种。

我可以继续说下去。我想说的是：如果我们不再局限于在空白地板和墙壁上体验沉浸式AR，我们需要设计自适应的ar游戏和应用，而这涉及利用我们周围的实际空间和对象。因此，我们需要通过一些非常聪明的设计来管理数十亿种变量。

尽管这可能是所述三大挑战中最遥远的一个，但在真正能够实现这些体验的未来设备到来之前，我们现在就可以从理论上进行设计。

在过去一年中，我们听到很多人都认为AR和VR在技术成熟度方面已经不相上下，但事实上AR仍然远远落后于当前的VR。AR令人十分兴奋，但从硬件到感知，再到设计，我们仍有许多东西需要学习。对AR来说，现在是一个激动人心的时刻。这个领域仍然是相当开放，而且市场已经出现了一个牢固的立足点，进军AR市场的时机已经成熟。

关键词： VR AR 设计