作者:Karl Guttag
编译:鬼道(本文已获转载授权)
移动增强现实已然是热点了。如果只从媒体最近报道的各类头显来看(如微软 Hololens、Magic Leap 创意者版、DAQRI 智能眼镜),你会以为面向大众的 AR 已经准备好了。然而这些 AR 设备还有很多局限,尤其是显示器。
最近媒体上流传着很多的 AR 猜测和所谓的“特性列表”。一致的看法竟然是 AR 显示器除视场偏小外已经很好了,即使视场也会很快变好的。一些 AR 显示器制造商,像 DigiLens 最近也宣布了 150° 视场的显示器。
本文尝试解释视场为何不能被快速地大幅度提升。但更重要的是,我们想指出视场只是大约 24 个 AR 重要参数中的一个而已。这些参数与 AR 显示器的相关性不比视场小,它们也不是已经解决或可以独立解决的。大部分 AR 显示器的技术在军事和工业场景中已有多年积累,最近的进展主要是降低成本,而技术上的突破却很少。
显示器类型
AR 显示器有 2 类主要技术:光学透视和视频透视。两种类型过去都有很多探索,但视频透视的限制非常明显,几乎所有商业 AR 设备都在使用光学透视显示器。
光学透视显示器
光学透视显示器让用户透过一组光学镜片“直接”看到真实世界。AR 显示器的原理是:在真实世界的源光线中叠加虚拟内容的光线。这个叠加操作是无法展示黑色或让真实世界变暗的,所以现在的 AR 显示器是无法展示黑色内容或绘制阴影的。实验室中已有设备能做到像素级遮挡源光线了,但离实用还很远,这里不再考虑。
目前主要有 2 种光学透视显示器:光波导(waveguide)和自由空间系统(free-space system)。光波导(下左图)在现今的高端市场中占据主导地位,上文提到的所有设备都是基于光波导的:从投影仪(projector)在发出的一帧图像的光,从光波导镜片的一侧进入,根据全内反射原理将在光波导内发生反射(和光纤电缆类似);然后在另一侧离开光波导并进入眼睛。光波导很流行,因为通过它很容易实现优雅的扁平设计,但也带来了很多图像质量问题。
图:光学透视显示器:光波导(左)、自由空间系统(右)
(译注:本文所引用的图片均为原文配图,不再逐一标注)
自由空间系统是光波导最流行的替代方案,使用了自由组合的光学元件,设计复杂性远低于光波导且成像质量更高。同时,一旦完全原型化后,生产成本远低于光波导。一个广泛存在的误解是:基于自由空间系统的显示器为了获得大视场,体积通常都很大(如 Meta2)。
光波导的光学效率较低需要高功率的投影仪,目前是通过组合 LED 光源和 LCOS 图像调制器来实现的。自由空间系统通常用 OLED 就可以了,OLED 可以自身发光且可以设计地更小。
视频透视显示器
视频透视显示器通过一对摄像头记录真实世界,然后将影像展示在 OLED 或 LED 的不透明屏幕上,通过传统的视频混合技术添加虚拟内容。这意味着包括 展示黑色内容、暗化真实世界 在内的任何操作都是可行的。
图:视频透视显示器的工作原理
视频透视相比光学透视的优点是内容混合的可控性。但目前几乎所有的 AR 设备都采用了光学透视,原因也简单:视频透视需要面对本文讨论的所有对现实世界和虚拟内容的挑战;相反光学透视只需要面对虚拟内容的挑战,且通过一些 UI 设计可以较好的规避。动态范围就是个明显的例子:人眼的动态范围可清晰分辨一个站在阳光直射下的人和邻近的站在阴影下的人,目前摄像头和显示器做不到这点;阴影里的人太暗而阳光下的人又太亮,此外大视场就变得必要了,不仅要匹配所部署的相机系统,还要要模仿肉眼所见的真实世界视场。加之人类自身因素的安全考虑(译注:可能是说人身安全,毕竟是遮蔽双眼,通过摄像头看外部世界)。基于以上因素,下文只考虑光学透视显示器。
设计参数
本文假定视场只是 AR 显示器诸多关键设计参数之一。接下来要讨论的参数中,大部分都和视场同等重要:
视场
适眼区尺寸
亮度、透明度和工作时间
对比度
均匀性和颜色质量
分辨率
真实世界失真
虚拟图像失真
眼睛安全
出瞳距离
周边视觉
色差
深度感知
尺寸、重量和结构
光学效率
延迟
通过牺牲其他参数来改进单个参数是相对容易的。比如,牺牲轻便性和适眼区尺寸来获取更大的视场不是很困难,但用户不会接受这种设备。换句话说,在小小的显示器上实现大视场和大适眼区是很有挑战的。类似的,更大的适眼区需要更多的光线以达到合适的亮度,所以光源需要更强大。
由于下文提及的大部分参数目前都还没有达到理想的状态,设备制造商的目标是提升所有参数。然而上面提到在不牺牲其他参数的前提下提升单个参数已经不容易了。权衡的主要原因是所谓的系统光学扩展量(etendue),它是一个几何不变量,如下面的公式所定义。必须保持光学扩展量的恒定,类似于能量守恒。在其最简单的形式中,它表明对于给定光源,光的立体角与表面积的乘积必须是常数。
图:光学扩展量的规则:随着 h2 的增加, 2 必须下降。
(译注:以下推导不影响对全文的理解,可以在学习了全文后再看这节)
在上图中,高度为 h1 的物体用作光源。对于所示透镜系统的几何形状,得到的图像被放大了 h2>h1 ,而物体侧的实心锥角 Ω2 与 Ω1 相比减小。换句话说,如果区域扩大,则实心锥角减小,反之亦然。更正式的光学扩展量(G)定义为:
其中 n 是介质的折射系数,Θ 是区域 dA 的发射(或接收)光束的角度。我们注意到没有标准符号用于光学扩展量,但“G”和“dG”经常在光学社区中使用。类似术语出现在称为拉格朗日不变量的近轴极限中,表示为:
其中 h1 和 h2 分别是前述物体和图像的高度,u1 和 u2 分别是物体和图像射线角度。G 的替代表达式有时用于处理显微镜物镜,NA 由下式给出:
如果试图扩大出射光瞳以获得恒定的视场,则光学扩展量会影响光引擎设计和投影仪尺寸的效率。例如,考虑上图中的简单投影仪设计,其中焦距 f 的准直透镜对宽度为 x 的微显示面板进行校准(我们将自己限制在一个维度上)。无论光波导还是自由空间系统,投影仪的视场是我们想要尝试并通过显示器进行中继的。
图:基于准直微显示面板的简单 HMD 投影仪示意图。
位于无穷远处的图像具有投影仪的高度(出射光瞳)由镜头的直径确定,而投影仪内的视场 Θ 由以下因素确定:
为了增加给定显示器的视场,我们需要减小 f 或增加 x,但是光学扩展量告诉我们增加立体角就会减小图像尺寸。另外,镜片的半径不能大于其曲率半径,这决定了它的焦距(通常使用镜子,因此只有一个表面可以有动力)。因此存在权衡,其可以通过使用更大的显示面板来解决,这又使得投影仪和照明系统更大,因为在准直光源时会出现相同的问题。因此,光电发射显示板非常有吸引力。光波导很受欢迎是因为它们允许“瞳孔扩展”或“瞳孔复制”,使得光学扩展量关系不会直接受到影响,但是这会产生其他后果,如前所述如图像质量,光学效率和亮度。当使用用于投影仪的扫描激光系统时,还会出现其他复杂情况,因为投影仪的出射光瞳非常小。扩展这种投影仪的一种方法是使用中间屏幕然后作为辅助光源,但是这会增加体积(需要额外的中继透镜),这会增加散斑并且还降低效率。另一种瞳孔扩展方法是使用光波导,但是如果没有眼睛跟踪和主动校正,则很难抑制伪影。
视场
所有人都希望有更大的视场(FOV,Field of View),这需要和其他参数小心地平衡。视场扩增的需求和使用场景密切相关。消费者场景下(如 玩游戏)更大的视场可提升沉浸感。很多专业场景下(如 保养、巡查)视场 40° x 30° 就够用了,因为焦点区域比较小不会遮挡其它重要的区域(如 遮挡较少会提升安全性)。
图:AR、VR 设备的 FOV 与 人类视场的对比。这里用矩形来形象地展示 FOV,现实中无论 AR/VR 设备还是人类视场都不是矩形的。
从上图也能看出,目前的 AR 显示器只能覆盖人类视场很小的一块区域。得益于更大的体积和更简单的光学结构,VR 设备的视场更接近人眼。
视场、适眼区、出瞳距离 之间的关系近似符合:
s 代表光学平面(如光波导镜片)的尺寸(如宽度),b 代表适眼区尺寸,r 代表出瞳距离,v 代表视场。下图展示了他们之间的关系。
图:光学表面尺寸 (s)、出瞳距离(r)、适眼区尺寸(b)和 视场(v)之间的关系。
对一个典型的水平视场 40°、出瞳距离 20mm、适眼区尺寸 20mm,显示器宽度是 35mm。其他参数不变,视场 90° 时,显示器宽度已经达到 60mm。对于 DIgiLens 宣称的光波导对角线视场 150°,显示器对角线长度将达到 170mm。按照 4:3 长宽比,显示器的尺寸大致是每块 135mm x 100mm!
图:光波导镜片尺寸 35mm(左)、60mm(中)和 135mm(右)
从上图可见,即使 60mm 宽度的光波导已经很大了,135mm 的光波导根本就不可行。不只是离奇的大,这么宽的视场必须考虑到双目交叉(详见后续章节),这意味着光波导镜片之间也需要交叉。显然,要达到这么大的视场,平面型显示器已经不够了,需要考虑使用曲面组合镜片。尽管不是不可能,曲面光波导还在研究中离实用很远。
适眼区尺寸
适眼区(Eye Box)是位于近眼显示器前方的一个区域,这个区域内显示器中的内容可以被“很好”地观察到。在适眼区之外显示器的内容可能被扭曲、颜色可能出错或翻转或者内容根本就不可见。尽管被称作“eye box”,适眼区的 3D 形状其实不是一个方盒却更像一个圆锥,圆锥远离显示器的地方更小。在 AR、VR 显示器中常用适眼区这个术语,在光学行业中更常用的是"出射光瞳(exit pupil)",指代即时视场等于总体视场的区域。
图:显示器(蓝)前,眼睛(黑)位于 适眼区(绿)内
大部分人在使用双目望远镜或显微镜时已经发现过小的出射光瞳带来的问题:除非每只眼被精确定位在目镜前方合适的位置,否则什么也看不到。这种”别扭“行为的原因是更小的出射光瞳具有更高的光效率(光从双目望远镜一侧进入后在另一侧较小区域内汇聚),显然这是双目望远镜所需要的特性。
所以,适眼区究竟需要多大?最小的经验尺寸显然是人类瞳孔的尺寸(通常假设约 4mm),这也是上文提及的双目望远镜的设计目标。双目望远镜的视场非常小,这样瞳孔就可以相对固定下来。然而,在 AR/VR 显示器的场景中,用户眼睛会随着对显示器的关注点不同而移动。要想支持这种眼动,适眼区的大小需要在每个方向上至少增加几毫米。
不仅是眼动需要扩大的适眼区。人类的瞳间距(IPD)也是有差异的。要支持变化的瞳间距就需要调整部件(比如双目望远镜)或调整透镜(增加适眼区宽度)。调整部件不是一个好的选择,因为适眼区宽度需要增加至少 10mm,理想值是 20mm;这在移动设备上是不太可能的,尤其是需要精确校准的场景。
由于光波导的入射光瞳通常不是那么大,已经开发了各种技术来增加出射光瞳的尺寸,例如瞳孔扩张或瞳孔复制。在两个方向上同时扩展适眼区, 衍射型光波导具备天然的优势,而反射型光波导则很困难。因而,半反射型光波导的适眼区通常比衍射型更小。
设计一个较大的适眼区是很有挑战的,通常会影响到其他的设计参数。比如,适眼区尺寸的增加需要更大尺寸的光波导镜片。同时,双目望远镜的例子中,更大的适眼区需要更多的输出光线以保持同等的亮度,这就引出了下一个话题。
亮度、透明度和工作时间
简言之:
显示亮度:在一定条件下,显示器是否足够明亮到虚拟内容可以被清晰地看到。
透明度:真实世界有多少光线进入眼睛。AR 场景中,在无障碍的区域内理想情况下透明度应该达到 100%,相反 VR 则为 0。
工作时间:每帧中像素被点亮的时间。以毫秒或每帧时间的百分比来度量。
从用户的视角看,这 3 个话题是很不相关的,但从技术角度看却很接近。所以我们将在这一节集中讨论它们。
显示亮度是移动 AR 设备上极具挑战的话题;几乎所有 AR 头盔的显示亮度都严重不足:Hololens 和 DAQRI Smart Glasses 的显示亮度是 300 尼斯,Magic Leap One 甚至只有 200 尼斯。由于显示亮度如此之低,大部分 AR 眼镜都只能在室内使用,在室外尤其是太阳直射时就无法使用了。为了缓解这种情况,大部分 AR 头盔通过使用有色遮阳板降低透明度(减少进入人眼的环境光),从而相对地提升显示亮度。然而,这在消费领域或许是行得通的,在很多专业领域就无法接受了。
~~在有色遮阳板之上,大多数光学设计都会阻挡现实世界的大量光线。例如,鸟嘴设计(ODG 过去使用过、nreal 仍在使用)自然地阻挡了大部分入射光。
Karl Guttag 的博客经常报道这类案例。按照 Guttag 先生的测算 Hololens 只允许约 40% 的环境光进入眼睛。MagicLeap One 只有约 15%,nreal 眼镜在2019 年初只有约 25%。幸运的是,人眼具备约 1:109 的极大动态范围,可以很好地应对这种程度的亮度下降。但是在黑暗环境中,这些亮度下降就有问题了。
工作时间定义了一个像素在每一帧中发光的时间,因而和显示亮度密切相关。100% 的工作时间意味着显示器持续地发光,对于 60Hz 显示频率,工作时间是 16ms 每帧。然而如果同一个像素显示如此长的时间会导致运动模糊。例如,假定显示器水平视场 40°、水平分辨率 1280、头部旋转速度 60° 每秒。这个场景下,头部每毫秒旋转2个像素。如果工作时间是16ms,那么将会出现长达 32 像素的“空间涂抹”效果(下右图)。
图:原图(左)和水平运动模糊图(右)
幸运的是,当盯着细节看时头部要稳定地多,所以实践中 4ms 或更少的工作时间对于 AR 显示器而言是可以接受的。
图:帧率 60Hz 时的工作时间:16ms(左)和 4ms(右)
LCOS 面板采用独立的 LED 照明(可以很亮),因而高亮显示器既有很高的透明度又有小于1ms(每种颜色)的工作时间。OLED 显示器就要暗得多,因而在同时需要短工作时间和高透明度的场景下就有严重问题了。上图显示了60Hz 帧率下的 16ms 工作时间。绿色区域即是显示亮度。左图的工作时间为 16ms,显示器很亮但是模糊严重。右图的工作时间为 4ms,模糊问题会大大降低,但可能会很暗。
图:工作时间 4ms:帧率 120Hz(左)和 240Hz(右)
帧率为 60Hz (约 16ms)时,4ms 的工作时间可以让显示器像素在约 25% 的时间里被点亮。因而,显示亮度下降至 1/4。如果帧率为 120Hz(上左图),4ms 的工作时间意味着像素在 50% 的时间里被点亮。相似的,帧率为 240Hz(上右图)时工作时间就是 100%。然而,如此高的帧率在移动设备上不太现实。
对比度
没有一个官方的定义或方法去测量对比度或对比率。然而大部分人能感受到对比度是什么。简言之,对比度描述了显示器同时产生更亮和更暗像素的能力,可以这么定义:
如果显示器的对比度很差,意味着不能同时显示较亮和较暗(或透明)的内容。因而,根据显示器的整体亮度,它将无法显示明亮区域或暗(透明)区域不会变暗。在光学透视 AR 显示器中,透明代替了黑色:低对比度的 AR 显示器中可以观察到显示为深灰色的透明区域。换句话说:只要 AR 显示器还不够亮,低对比度的负面影响也是有限的,反之就需要更高的对比度了。
对比度依赖显示面板和光学系统。LCOS 有较低的对比度,通常在 1:100 至 1:200。OLED 有高得多的对比度 1:1000000 或更高,这也是 OLED 如今家用电视中广泛应用的原因。然而,无论 LCOS 还是 OLED 的光学元件(棱镜、透镜、光波导镜片)都会导致对比度进一步下降,所以基于 LCOS 的光学系统最终的对比度很容易就低于 1:100。
均匀度和颜色质量
颜色质量定义为显示器精确显示颜色的能力,例如,一个像素被 GPU 渲染为红色,在显示器上看起来就应该是红色。为了实现合适的颜色再现,需要校正(含伽马校正)。由于 AR 显示器通常具有叠加性质,因此感知的颜色还取决于虚拟内容所覆盖的场景。
和对比度一样,颜色质量严重依赖显示器的位置:例如一个像素颜色在显示器左侧和右侧表现差异很大。这些问题通常依赖于视图,这意味着用户瞳孔的位置也会有影响,需要用眼球跟踪技术来解决。
均匀性描述了有多少颜色根据它们在显示器上的位置而变化:在一个完美的显示器上,每一个显示了相同 RGB 值的像素看起来都一样。现实中,亮度、对比度、颜色和其他属性取决于显示器上的位置和观察像素的角度。
通常自由组合镜片(如 Meta2)和半反射光波导(如 Lumus 的镜片)的均匀性非常好。衍射型光波导显示器(如 Hololens 和 MagicLeap)有明显的均匀性问题:充满了中等灰度的像素显示了各种色调(见下图)。
图:上图:衍射型光波导的颜色问题(原图 Karl Guttag):显示器显示各种色调,而不是均匀的白色或灰色色调;下图:明显的亮度不均匀
分辨率
显示分辨率描述了能显示多少不同的像素。分辨率属于经常被提到,但理解很有限的一类参数。显示分辨率的终极目标是达到或略高于约一弧分(1/60°)的人类视觉极限。
由于市场中对参数的过渡追逐,今天很多手机的分辨率远高于人眼在正常情况下可以观察到的分辨率。例如,在 40cm 远观察 14cm 长的显示器约等于人类视场的 20°,需要长边不超过 1200 像素。目前有大量手机的显示分辨率超出这个值 50%。
对于视场 30° x 20° 的 AR 显示器,1800 x 1200 像素就够了。VR 显示器视场已达到 90° x 60° ,因而需要 5400 x 3600 像素才能达到人眼的视觉极限。这意味着每秒钟需要生成和显示 75 张 2000 万像素的画面,合计每秒 15 亿像素。
移动手机上用户直接盯着屏幕,所以没有光学元件(忽略贴膜)会影响屏幕的像素质量。AR/VR 设备中,在人眼和显示器之间的复杂光学系统会严重降低图像质量,进入人眼的有效像素会明显低于显示面板的像素。如 Karl Guttag 曾指出 MagicLeap One 的有效像素只有其面板分辨率的大约一般,相当于从 HD 画质降级到了 VGA,Hololens 也有类似的问题。
因而,只要光学系统 (如 光波导)是限制因素,只引用显示面板分辨率通常没有意义。
真实世界失真
在光学透视显示器中,真实世界是透过一组光学元件后背观察到的。在大部分 AR 设备中,这些光学元件主要是:
光波导展示虚拟图像,如 Hololens。
自由组合镜片反射投影图像到眼睛里,如 Meta2。
设备外部的遮阳板用于保护内部电子元件和光学元件(所有基于光波导的设备)。
推/拉镜头将虚拟图像焦平面从无限远移动到更实用的距离,如 2 米(反射光波导,如 DAQRI Smart Glasses)。
单面或双面额外的塑料用于保护脆弱的光波导镜片。
这些元件中有些光学特性有副作用。如光波导是用于将光弯曲(引导)至合适的方向,但这也会影响本应直接穿透的真实世界光线。同样,遮阳板或推/拉镜头也会因为设计或产品质量的问题扭曲光线。
我们自然希望真实世界的视图尽量少失真,但现实中需要兼顾重量和成本,妥协的结果就是明显的伪影。
虚拟图像失真
光学工程师希望设计具备最好图像质量(包括最小化失真)的光学路径:理想的情况是显示面板上的矩形像素网格看起来就应该是矩形像素网格。在直视的场景中(如移动手机上)是容易做到的。在复杂的光学环境中( 如 AR 显示器),为了优化其他参数,通常只能忍受图像的失真。
幸运的是,相比真实世界失真,虚拟内容的失真可以通过显示器校准(失真是因设备而异的)来很好的解决。通过合适的校准,这些失真可以在渲染管线的某一环节(数字反失真)被处理掉,只需要很小甚至无需额外的处理成本。然而,取决于系统中的光学失真量,这可能导致明显的瑕疵,例如某些区域中显示分辨率的降低。
光波导的失真通常低到用户场景下可以忽略(无需校准,无需数字校正)。自由空间组合显示器和 VR 显示器一样,通常会产生需要合理处理的严重失真。因为失真图像会呈现明显的非矩形,这时显示面板的有效显示区域也就下降了。下图展示了自由空间设计中的网格失真样例。可以注意到:部分网格落到了显示器面板之外,部分显示面板用户是看不到内容的(黑色无网格区域)。下图也很好展示了顶部和底部分辨率的差异。
图:自由空间组合显示器的失真样例。此图是光学通路中的矩形网格在显示器上展示的图像。
眼睛安全
AR 显示器中有 2 类眼睛安全很重要:保持眼睛和 AR 显示器之间的安全距离,使用 AR 显示器保护眼睛免受外部伤害。
保持眼睛对 AR 显示器的安全听起来好像很简单,显然任何消费级或专业级的产品都需要。但在近眼显示器的场景中,镜片离人类最脆弱的器官只有几厘米,特殊的考虑是必须的。AR 显示器使用玻璃元件作为其光学栈的一部分,这时安全性就更加重要了。在撞击时,这些玻璃元件会破裂并伤害用户。因此,需要将所有玻璃元件放入不易破裂的保护盖中。
尽管这听起来是显然的,实际却不一定。如最近联想发布的 ThinkReality 眼镜将裸露的反射光波导镜片直接放置于用户的眼前。由于这些光波导是由许多以水平条纹粘在一起的小玻璃元件构成的,它们很容易破裂并损害佩戴者。
在商业或工业环境下,需要保护眼睛远离外部力。诸如 ANSI Z87.1 之类的眼睛保护安全标准描述了安全眼镜需要能够承受的力的类型。
出瞳距离
和适眼区一样,出瞳距离(Eye Relief)也没有一个通用的定义。简单说就是瞳孔到 AR 显示器上最近点之间的距离。因为用户的头型不一致,实践中需要支持一个出瞳距离的范围,出瞳距离定义为(译注:应该是强关联)适眼区的厚度(沿目光的方向)。
图:出瞳距离是瞳孔到最近的光学表面的距离。
通常,出瞳距离大到足以佩戴常规处方眼镜是最好的,因此需要视力矫正的用户不需要为他们的 AR 眼镜购买镜片插入物。然而,就像上文提到的,适眼区实际不是一个长方体,更像一个圆锥体且远离显示器的部分会变得狭小。所以,要实现较大的出瞳距离和足够宽高的适眼区是很有挑战的。
周边视觉
AR 眼镜中有 2 类视场是很重要的:一类是,虚拟内容所在的可增强区域(人类视野的一部分)是大部分文章和说明书中所指的视场。另一类是,人类能看到比 AR 可增强区域大得多的范围,重要的是这种周边视图在相当程度上是清晰的。
自然人视场大致单眼 150° x 120°、双眼组合 220° x 120°。眼前挂一副眼镜显然是额外的遮挡,一个很重要的设计目标就是最小化遮挡。下图展示了人眼视场(绿)、无遮挡视场(红)和可增强视场(蓝) 之间在尺寸上的大致关系,所有区域都简化为了矩形区域。
图:对比人类视场(绿)、典型 AR 设备视场(红)和实际可增强区域(蓝)。绿和红之间的区域是被设备边框遮挡的视场;红和蓝之间的区域是可见的但不能被增强的真实环境。
所以除了最大化可增强视场(蓝),第二目标是最大化无遮挡视场(红)。为了实现这个目标,任何可能阻挡视线的物体都应该往外挪。这包括了显示器的一部分、传感器或眼镜腿。
和上面简单的可视化不同,视场其实不是一个矩形。正如下图所示,视场主要受眉毛、鼻子和脸颊的影响:红+黄描绘了左眼的视场,绿+黄描绘了右眼的视场,黄色区域是双目可见的重叠视场。
色差
不同颜色的光(波长不同)在镜片中的折射系数也不同,这会导致颜色相关的焦距。在摄像机中通常通过镜片组来弥补,因为尺寸的限制这个办法在 AR 显示器中是做不到的。所以,AR 显示器中的色差就很明显了。尽管有些色差很容易通过软件(需要合适的校准)就修复了,其他问题就很棘手了(比如视图相关的)甚至是无法修复的。最好的办法永远都是尽量多地通过光学手段去减少瑕疵,而不是软件手段。
图:左:色差导致红色和蓝色分裂;右:扭曲每个颜色通道来数字化校正相同的图像。
深度感知
人类视觉中有多种方式可以让我们感知深度。对于 AR 显示,两个最重要的方式是聚散(眼球旋转以观察同一个物体)和调节(瞳孔聚焦在一个物体上),它们是神经耦合的。不匹配的聚散和调节会导致不适,称为聚散调节冲突(VAC)。
大部分人在观看 3D 电影时都有明显的 VAC:尽管焦点没有变化(TV或投影屏幕固定),之所以能体验到 3D 效果是因为每只眼睛看到的画面(立体内容)有轻微的不同。在电影院中,焦平面由房间设置给出:如果一个人坐在距离投影幕墙 10 米处,那么焦平面固定在10 米。在这个距离,人类几乎不能根据瞳孔焦点区分距离。因此,只要立体内容也驻留在该距离或更远(而不是弹出),事物看起来是自然的。
AR 显示器的场景下焦平面是光学通路上的一个设计参数:尽管显示器在眼睛前仅有几厘米,焦平面总是会设置得远得多,因为人眼不能聚焦到如此短的距离,也不会有意义因为虚拟内容也会更远。
下图突出展示了正常视觉、VR 和 AR 之间的差异:
正常视觉,聚散和调节是同步的,因为都会调整到相同的距离。
VR,调节总是发生在同一个距离(2m),而聚散依赖于屏幕上渲染出来的立体内容。
AR,VAC 会更大,使用虚拟内容增强的对象将在聚散方面同步显示,但是对于真实和虚拟对象的调节会非常不同。
理想情况下,我们需要能够为每一个像素选择不同的焦距,目前实验系统已经在探索这个方向并且已有原型了。然而,这样的系统离商业级应用还有很长的距离。
图:聚散和调节:正常视觉(左)、VR(中)、AR(右)
只要我们必须使用单个焦平面,AR 显示器设计者需要决定放置它的位置。对于大部分场景而言,最佳的位置是 2m 左右。这个焦平面应该近似平坦且对所有颜色是相同的。这不是一个简单的设计目标,因而当测量当下的 AR显示器时,人们可以注意到在实践中焦“平面”既不平坦也不对所有颜色都相同。
尺寸、重量和外形
显示器尺寸以及通常的眼镜尺寸是当前 AR 眼镜中最有挑战的设计参数之一。因为需要较大的视场和适眼区,显示器很难做小。好比很难让卡车很小的同时又有很高的货运容量。大型显示器导致眼镜体积庞大,进而降低了眼镜的实用性;眼镜越大,用户也越容易碰到东西。
然而,更大的显示器通常意味着更重的镜片。因为需要很多光学元件来保证画质和折射系数,它们是由玻璃构成的,因而随着尺寸的增长会迅速变重。
Michael Abrash 在 2018 年 Oculus Connect 5 大会上曾提到:AR 眼镜一定不能重于 70g。尺寸和重量不是独立于其他属性的参数,例如外形。如果重量分布得当,人类头部的承重可以远大于 70g。虽然鼻梁在承受很轻的重量时就容易受伤,但耳朵可以承受更多的重量且头顶更甚。重量的分布远比重量本身重要得多。例如,Meta2 眼镜本身不太重,但是因为不当的重量分布,给前额施加了过大的压力。
光学效率
光学效率是指发光元件(如 LED)发出的光实际到达用户眼睛的程度。可能会令大部分人感到吃惊的是:基于光波导的显示器,其光学效率是极其低下的,大部分只有 1%。幸运的是,基于 LCOS 和 LED 组合的投影仪足够亮,能够给光波导提供充足的光量,因而 OLED 就不适合光波导了(亮度不够)。另一方面,在组合型显示器(如 Meta2)中可以通过组合元件的透明度来很好地控制光学效率:组合元件反射得越多,它的光效就越高。然而,这也将导致更多的环境光被反射,因此到达眼睛的环境光更少(透明度降低)。
光波导是目前 AR 显示器的主流技术。因为 LCOS 明亮但对比度低,OLED 有高对比度但亮度太低,很多人寄希望于 Micro LED(通常被称为 mLED、μLED,最近也被称做无机 LED 或 iLED),它的亮度要高得多。适用于 AR 显示器、分辨率足够、面板尺寸合适的 Micro LED 最近已经能看到演示了,但至今为止这些面板都只是单色。这些面板可能还需要数年时间才能支持全 RGB 色彩。
延迟
延迟定义了从事件发生(如运动)到显示器显示相应更新所需的时间。例如,当用户将头部向右旋转时,显示器上的内容必须相应地向左“移动”。延迟在 AR 中不是一个经过充分研究的主题,主要是因为直到最近才有足够低延迟的系统。然而人们普遍认为,对于光学透视显示器而言,5 毫秒或更短的延迟就足够了。
图:由于延迟,标签在头部快速移动时会从清晰的位置(左)漂移到不清晰或错误的位置(右)。
除了算法和其他电子元件的因素,延迟主要是显示面板(OLED、LCOS)和显示接口(MIPI,DisplayPort,HDMI)的交互导致的。延迟和显示面板的选择是一个复杂的话题,因为它对电子元件和软件设计影响巨大。例如,执行线序(“滚动”)更新的 OLED 需要与执行颜色顺序(“全局”)更新的 LCOS 完全不同的数据传输和运动补偿策略。
更多延迟的细节可以参考我们的白皮书。
杂散光
大部分用户和眼镜制造商都梦想着类似太阳镜的 AR 眼镜。虽然这听起来很简单,但是有一个重要的问题通常被低估了:杂散光。
AR 眼镜越开放,从意外方向和光源进入系统的杂散光就越多。虽然 AR 显示器通常能很好地应对来自前方的环境光,但来自侧面或来自用户后方的光会引起严重问题。常规处方眼镜通常不会反射太多光线,杂散光问题通常还好。但 AR 显示器的工作原理决定了其必须反射和弯曲光,因而也更容易受到杂散光的影响。衍射光波导特别容易受到杂散光的影响,来自侧面的光会在显示器上显示为彩虹状伪影(下右图)。反射光波导的表现会更好些,但也还是受到影响的。在一些设计中,可以减少杂散光,但是在其他设计中,问题不像衍射技术那样容易解决。
图:杂散光从侧面反射进入人眼(左),吸顶灯杂散光造成的伪影(右)。
视觉舒适度
在过去 50 年的 HMD 发展中已经做出了许多努力来解决人为因素造成的舒适度问题,特别是在涉及立体显示的情况下。如前所述,VAC 是众所周知的问题,还存在与双眼视觉相关的其他效果,其对舒适性具有显著的影响。其中之一被称为垂直发散。当双目显示器之间存在垂直视差或倾斜时,会出现垂直发散。众所周知,人类视觉系统对此是不耐受的,且可能导致头晕、恶心甚至呕吐。有时人们认为 VAC 是这种症状的原因,实际上它是显示器间的轻微错位。Self 于 1986 年参考美国海军训练文献进行的一项研究指出,双目镜筒轴的垂直偏差 δ 不应超过 2 弧分,以避免眼睛疲劳。
图:垂直方向图像未对齐、垂直发散,可能导致观看不适。右眼需要稍微旋转才能融合双目图像。
另一个影响舒适度的领域是双眼重叠的程度。例如,不必完全重叠左右图像区域,事实上通过故意不重叠显示区域来增加有效视场是很常见的,有两种方式:发散重叠和会聚重叠。一般来说,人类的视觉系统可以容忍这一点,因为现实世界中的图像由左右眼看到,并没有完全重叠(鼻子的原因)。然而在经历不适之前,用户之间的部分重叠程度是存在差异的:90% 的部分重叠被认为是可接受的,而随着重叠减少到 70%,报告不适的用户数量增加。
图:部分重叠方案,左:发散部分重叠,右:收敛部分重叠。
质心是另一个重要的因素,虽然不是视觉上的,不恰当的设计可能会导致用户脖子产生不必要的不适感。显示部件和周边电子元件的布置需要有助于最大限度地减少质心的移动。如果用户需要在一个角度范围内向上和向下看,那么这可能非常关键。
还有什么?
除以上各章节所涉及的主题之外,还有一些其他的设计选项甚至还没有进入商业系统。目前大多数设备只能在固定距离上显示一个焦平面。Magic Leap One 更进一步实现了 2 个焦平面,为此付出了沉重的代价:图像质量和透明度的下降。然而,人类能够分辨出大约 12 个焦距,而目前的方法仅能分辨出一两个焦距。因此,即使已经有了使焦平面可调的工作,但到目前为止所示的方法对于大多数 AR 设备来说太复杂了。
另一个尚未进入商业系统的功能是在光学透视显示器上绘制黑色像素。今天的被动光学无法做到这一点,因为他们的“现实虚拟”混合工作纯粹是叠加的。对于黑色像素,需要能够在每像素和每帧级别上阻挡真实世界的光。虽然脑海中会立刻复现出 LCD 层,但这种方法会将显示器的透明度降低一半,造成偏振环境光问题,因此通常不是可行的解决方案。
我们也没有讨论功耗和散热问题。人类对靠近眼睛和面部的热源高度敏感。因此,头戴式装置在面部和太阳穴区域的损耗不应超过1瓦。现在几乎所有的 AR 设备都在为产生过多的热量而挣扎。因此,为了使显示器明显更亮,光学设计必须变得更加高效,而不仅仅是增加显示器光源的功率。
未来的期待
我们通常要求更大的视场和更小的眼镜(太阳镜大小),显然不利于改善上面讨论的许多参数。与电子学不同,小型化在光学设计中通常不是一个选择或收益,因为它会导致焦距、适眼区大小或出瞳距离等参数的缩小。
新的突破性技术可能只能推动上面讨论的少数几个设计参数。例如,全彩色 Micro LED 的出现将使投影仪变得更小更亮,但这对整体显示器尺寸的影响有限。另一方面,光学领域的技术不太可能有巨大的变化。
因此需要相当长的一段时间才能看到:具备太阳镜外形、大视场、高亮度、户外适用和所有其他梦寐以求特性的 AR 眼镜。相反,与电池技术领域一样,我们将更有可能看到逐年递增的改进。
*本文系转载,原文为《Why is making good AR displays so hard? 》,由Karl Guttag撰文,知乎作者鬼道编译。译文已获原文作者授权。
译文链接:
https://zhuanlan.zhihu.com/p/82821888
原文链接:
https://www.linkedin.com/pulse/why-making-good-ar-displays-so-hard-daniel-wagner/
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
版权申明:本文经原作者授权发布,不代表VR陀螺立场,如需转载请直接联系原作者
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息