近几年,XR产业的发展迎来又一波热潮。随着Cardboard机型退出历史舞台,我们看到在XR消费级市场以双6DoF一体机Quest、Pico Neo 2和非常轻薄的超短焦头显3Glasses X1、华为VR Glass等为代表的新机型开始独占鳌头。
与此同时,PC VR头显开始了更具挑战性的尝试——一些厂商将追踪范畴从头和手扩展到腰和脚,也有厂商将手势识别、面部捕捉以及眼球追踪等技术视为下一代XR机型的发展目标。从2012年到现在,XR产业已经走过了8年的时间。这段时间里,XR交互方式究竟是如何一步步变化的?未来,XR交互又将呈现怎样的新形态?
本期超V对话,我们邀请到诺亦腾的戴若犂。他是北京诺亦腾科技有限公司联合创始人,并担任公司CTO职务,具有丰富的前沿科技产品开发经验,其研究及工作主要集中在动作姿态捕捉技术,体感交互技术,虚拟现实技术,可穿戴设备开发等领域,今天,他将为我们带来XR交互技术瓶颈及未来发展路径的深入分享。
12月27日,由VR陀螺联合中国电信天翼云VR、人民网5G创新中心联合打造首档VR虚拟访谈节目《超V对话》第二季在天翼云VR App(4K VR版)、人民网5G频道、腾讯视频、Bilibili、优酷、Youtube等各大视频网站同步播出。
本期访谈陀螺君带大家走进一间漂浮在宇宙之中的空间站采访室内部。在这里我们将一同探讨XR交互的发展历程、现阶段技术瓶颈及未来形态。
以下是本期访谈全文:
VR陀螺:最早的达摩克利斯之剑,它定义了全沉浸式的视觉、听觉的交互理念。从那时候开始,尽管有其他的厂商再尝试探索新的沉浸式交互的方式(比如裸眼3D立体显示),但VR设备在很长一段时间里仍旧围绕着头戴式显示器来发展。时至今日,您觉得VR设备的视听体验上有哪些新的升级吗?
戴若犁:达摩克利斯之剑是68年左右设计出来的,确实是到现在为止这些设计没有本质上的特别大的变化。都还是在眼前放一块屏幕,然后这块屏会跟随着头部运动而运动,给人一种沉浸式的视觉观感。
这种设计的出现有一个特别大的原因是:在人类五感中给我们信息最多的就是视觉,就这件事情大家都没有什么疑议。比如说我们提出一个非常极端的问题,如果要剥夺你的五感,你最后愿意放弃的是什么?一般来说大家都会希望能够保留自己的视觉,因为获取最多信息的途径是视觉,所以从一开始人们去开发这种沉浸式体验的时候,首先解决的就是看的问题,然后再去解决其他感知,比如触觉等其他的一些问题。要想解决看的问题,而且要有一种沉浸式的观看环境的话,其实性价比最高的一种方式就是把一块屏幕挂在眼前。因为如果是要通过其他的显示方式,比如说一块巨屏、一个环幕,那就变成了一个非常高成本的设备了。
当然,现在在很多地方,比如军事仿真、模拟器这样的环境当中,我们见过类似的系统是以球幕、环幕、CAVE的形式,提供一个沉浸式的视觉。头戴式显示这种设计是摆一块屏并且这块屏幕能够跟随着你的头动,同时它能够尽可能的覆盖你的视野,可覆盖的视野的大小就是所谓的FOV,并且屏幕上显示的内容是跟头部的运动相匹配的,这件事情从经济方面或者是在满足人的最主要观感上来说是合理的。
这种合理性是一个物理层面的合理性,不管是从信息获取、视觉的重要性上来说,还是从头戴式、随动的覆盖视野以及其经济效益上来说,都是非常合理的。这两个合理性导致其实从1968年到2020年,VR设备在外观上没有出现大变化,只是它的性能发生了巨大变化。
VR陀螺:从视觉方面,可以说一体机都达到了4k级别,而像小派这种比较偏研发的,甚至做到8k,FOV 200度这样的级别。但是很多人还是说现阶段没办法去欺骗人眼,可能要单眼8k甚至是16k,并且要达到音频也要有空间6DoF,这种情况下才能达到适合大批量使用的目的。VR头显性能的发展,真的会这样一直提升下去吗?
戴若犁:就这个问题其实我觉得可能大家的理解还是有一定的偏差。首先,分辨率在整个沉浸感体验这件事情里,它不是一个完整的描述,也就是说我们如果只关注分辨率这一件事情的话,其实并不能特别好的解决沉浸度、沉浸式体验,或者说把假的做得跟真的一样,这件事情不光是用分配分辨率这一个参数去描述的。
但如果只聊分辨率,我们可以对比一下行业中如今主流的手机,不管是大一点屏幕还是小一点屏幕的基本上都是2k~3k,虽然有一些比如像索尼这样的厂商比较激进,他会去做一个4k分辨率的手机屏幕,但是基本上主流的就是2~3k。
手机行业最终分辨率收敛到了2k、3k这个级别,它核心的原因是因为当我们手持手机处于一个舒适的观看距离的时候,人眼的分辨率是有限的,就是在某一个距离、某一个分辨率达到了之后,人眼就无法再分辨更小的像素了。也就是说不管是从性价比还是从实际的需求,我们并没有更高分辨率的需求了,或者说再继续大幅度提升分辨率,人眼的体验并不能同步大幅度提升。继续提高分辨率这件事情,对于买家付的钱来说,或者是对于整机付出的功耗来说,都已经对不起厂家投入继续的科研和更大的成本了。
那么手机如果是在2k多达到了收敛的比较平衡的状态,我们可以用一个粗略的方式去估算一下VR领域的这个参数会收敛到哪里。有人说是8k,但是其实估算下来其实8k都还不够。我们来考虑一个VR环境中分辨率的时候,一般不会用手机里的PPI(point per inch),而是会用PPD(point per degree),也就是说我们看它的FOV里我们大概用了多少像素点去覆盖以角度为衡量的视域。
当我们手持手机在面前观看时,大概处于30厘米左右的距离时,这时会处于一个舒适的状态。这是一个没有严重近视或视力没有严重老花的人,大概的手持距离。如果我们拿的是一个常规屏幕尺寸的手机,大概它对我们单眼覆盖的FOV估计为10多度不到20度的样子,这里姑且算是它覆盖了20度,那么就是遮挡了我们20%的视野。
那么人们单目的FOV大概是多少呢?我做过尝试,把我的右眼朝最左边转动看到的边缘和朝最右边转动看到的边缘这个角度在160度左右。刚才我们说将手机手持在面前,它覆盖了20度。那么在VR环境当中,我单目能够看到的极限的FOV大概是160度,那么其实手机覆盖的面积就只有实际需求FOV的1/8,这是在一个维度。如果是在面积方面,它就是一个平方的关系,即1/64。所以我们用这块2K分辨率手机能覆盖的面积只有实际需要覆盖视域面积的1/64,在这里姑且算成1/60吧。那么当这块屏缩小了很多很多移到我们的眼前的这块小屏幕上,假设人眼在不同距离上的角分辨能力基本一致,那么我们仍然需要一块分辨率超级高,达到了60*2K分辨率的屏幕才能让我们和看着30厘米远的2K手机一样,看不到像素点,且覆盖了完整的160°的FOV。当然,,眼球在视域边缘的角分辨率是相对较低的,这里60倍的估算应该是偏高了,但是我们基本可以断定8K肯定不是尽头。
从上边这个粗略的估计来看,我们虽然还有很长的路才能够达到完全看不到像素点的那一天,但尽头肯定是有的。当它发展到人眼无法分辨像素颗粒的时候,再继续提高分辨率就没有意义了。而且这个发展很有可能它会撞上成本和制程的墙。但它不像手机,很有可能到某一个时间点我们的技术没有办法提升了,我们会提前撞上墙。可能在单眼十几k这样的一个状态可能就有点发展不动了,所以到那个时候也就不会再继续了。
而听觉方面反而会比视觉要简单得多。首先,我们人去接受听觉的感受器,也就是我们的耳朵,或者说我们的耳膜听小骨听觉传导神经这套器官其实比视觉要简单很多,听觉感受器数量比较少,自由度也比较少。在听觉上面,我们听到的其实是频率的高低和音量的大小,而且只有两只耳朵,所以要满足听觉这个事情,它的成本或者是说能够做的事情相对来说比较低一些、少一些,所以在听觉方面会比较容易的就能满足我们的需求,而更多的像你刚才所说的,比如6DoF音源、6DoF的声音拾取其实跟头显关系不大,它跟后台的计算和内容制作相关。
以前我们也做过类似解决方案,比如说我们面前有一只蜜蜂,那只蜜蜂它发出的嗡嗡声,当面对或侧对着它以及距离远近不同的时候,我们听到声音应该是不一样的。
这个声音跟头显上的 Speaker关系不大,而主要是跟内容里面的计算单元关系较大,所以说它对算法的要求会高于对设备的要求,所以在继续的去发展视觉感受的时候,其实很多是跟我们这两块屏幕相关,但继续发展听觉的时候,主要跟后面的算法和计算能力相关,它跟头显上的 Speaker关系就不是特别的大了,或者是说我们很快就可以有足够好的声音设备来达到极限。但是我们会需要比较长的时间——而且可能长到某一个时间点就撞墙了,没法发展了——才能满足我们视觉的极限。
VR陀螺:今年受疫情影响,出现了很多虚拟线上的会议、社交。做这些方面的厂商特别多,他们就在视听体验上面去推行。因为如果是基于虚拟世界的概念,它提供的并不是一个很单纯的体验,而是能够以假乱真的沉浸式体验。这似乎意味着要听的就不止这些,甚至要真实还原它的噪声,远近的空间感(旁人路过的声音改变),这样一个世界的层次感才能被体现。这种声音上的技术性要求应该还蛮高的吧?
戴若犁:对,在这方面对拾音的要求比较高,对播放的要求其实跟原来是一样的。而且因为需要环境噪声进来,这其实跟传统的可穿戴设备,或者是说手机、耳机这样设备是相左的。目前像耳机这种可穿戴设备,很多都是要滤除环境噪声,因为首先要保持最重要的信息,比如咱俩说话的声音。 Quest2对环境音的滤除其实做的还蛮不错的。我身边同事电脑的风扇声音其实挺大的,我估计你听不见。然后刚才我手机也响了一次,估计你听到的噪声也比较小,所以说就是它现在的工作方式还不是要高保真还原一切东西,它是要把最重要的信息先传过去。
所以即便是你刚才说的,不管是HTC做线上的会议也好,还是像我们今天VS work,他们做的这一个现场访谈这样的系统,其实目前可能还顾不到要把环境声也收进来,提高沉浸度。首先要把最主要的矛盾解决了,才能再谈之后的事情。
所以这两件事其实是相左的,我也觉得有些东西跟软件也不太相关,因为比如说前期硬件这一层的环境噪声就已经被滤掉了,VS work它再想把环境声收进来,也收不进来。因为给它的声音已经没有这些噪声了。我觉得可能现在去谈在听觉方面进一步的提高保真程度,或者是说沉浸程度,可能还为时尚早。大家先把视觉的问题解决了,听觉方面就先把最主要的信息传递解决了就好了,因为视觉能给你的信息数量级地压倒听觉给你的信息量。
所以我个人认为凡事有先后、抓重点,行业最终拿钱投票,会先解决视觉的问题,开会这个应用场景里的听觉问题先不谈保真度,就保证先把最重要的信息传递过去再说。
从解决“有没有”到选择“是否要有”,C端XR交互技术将不会再有革命性变化
VR陀螺:交互方式的技术探索之路,最终要看谁会被市场验证使用和认可。您这边有这么长时间的对市场的分析和研究,从您的角度来说,XR设备交互从早期发展到现阶段都经历了哪些瓶颈期?未来的交互技术又会是什么样的呢?
戴若犁:回望XR硬件交互技术的发展,其实是有规律可循的,而且非常严格的符合了物理规律和经济规律。
发展分为几个阶段,首先第一个阶段是解决有没有的问题。在解决“有没有”的问题的时候,它其实是技术所限。比如说最早期的像DK1级别或者说Gear VR、Cardboard这样的3DoF的头显,其实那个时候大家都知道,头部是需要6DoF的,是需要6个自由度的,但是由于技术所限,只能做到3DoF,所以说在那个时候其实大家几乎没有任何疑虑,或者说在业界中没有任何相左的意见,都想着将技术赶紧往前推进,等推进到头部能够自由空间移动的时候,就可以不用坐在这儿只能小幅度动头,所以那个时候各厂商其实是纯技术的发展——只要技术能解决这个问题就马上用上。比如说到了DK2的年代,马上就用了。把头最主要tracking的问题或人机交互的问题解决了之后,接下来仍然是一个没有什么疑虑,也没有什么相左的意见的发展阶段——即控制器同样不应该只是停留在3DoF阶段。
记得最早的一代控制器,甚至于都不是攥在手上的,像Gear VR是在头部旁边的,在头部的侧面这个地方有触控功能,点按表示确认。后来慢慢的将控制器抓到手上了,是一个3DoF的手柄,上面有几个按钮;而后它的6自由度发展也是没有任何疑虑的。一直到后来在DK2的年代,头已经有了6DoF,手柄还是3DoF。Oculus对于交互技术的推进。到了CV1年代3DoF的手柄向着手里的Touch Controller进化,这在相较同期甚至于更早一点,有了HTC Vive,第一代HTC Vive开创性的一点就是用LightHouse这样的系统推出了特别可靠精确的6DoF的头加两个6DoF手柄,所以才有了朝今天这个方向发展的源头。纵观整个业界,前期一直处在技术赶不上需求的阶段,所以这个是技术改革的需求。那时候的厂商要求是只要是技术跟上了,就会尽快用上。
到了第二个阶段,进入了思考到底是否需要“手”这件事情?咱们现在用的Quest头显,其实把控制器放在桌上,双手往脸前一端是能看到手的,这是可以用手进行基础交互的。
也有像Leap Motion以及其他的一些技术供应商包括诺亦腾,我们也有可以匹配HTC Vive和其他头显的动作捕捉手套。这个时候你会发现一件很有意思的事情,就是为什么我们现在用的设备,比如Quest设备,它并没有把裸手的交互或者手形态的交互作为主要的交互模式。它大部分的主流游戏和工具以及官方系统的操作,其实都是都还是基于控制器的。这件事情很有意思,有可能很多人就想是不是因为手势识别还不够好,然后有高延迟有遮挡这样的一些因素的问题,是不是裸手交互的技术做得还不够好?其实也未必。
人机交互里出现手的形式,直接用手来交互带来的最大好处,在于用户其实是不太需要学习就可以掌握这种交互方式,也就是说它的学习成本曲线是非常的平,因为我们日常生活当中知道自己的手是怎么用的,我可以跟人挥手,可以打手势,有东西来了我会接一下,这里有本书我要翻看一下,这些交互是不需要学习的。
但是,目前这一代的虚拟现实环境里并头没集成像力反馈、仿真触觉这样的功,那么用户空手跟虚拟环境进行交互,就变成了一件非常别扭的事情。从另外一个层面来说,这种交互其实是不符合用户的基本认知的。裸手交互,看似已经无限贴近用户认知的交互模式会给予用户较高的期望值,那么这个时候比如说咱俩伸手握个手,我并不能真正摸到你的时候,就会觉得这件事情非常别扭。那如果当我手里有一个Touch Controller,手里有一个控制器的时候,这些事情它就会变成用控制器,弄条激光出来指点操作一下,而控制本身以及上边的按钮、摇杆是有触感、有反馈的,而且成功率是100%,用户就不会觉得那么别扭。
只能说,在技术成熟度尚未达到的时间点,将裸手交互这类人机交互新方式嵌入操作系统中,很多时候给我们带来的综合体验高度和我们想象的情况是相左的。更多时候在人机交互设计和体验上退而求其次反而是一个提升。
大家很容易混淆两个概念,一个叫手部动作捕捉,一个叫手势控制,绝大部分人都会把这两个技术混为一谈。手部动作捕捉是把人的动作数字化,只说到了数字化这一层、动作捕捉这一层,而下一步从动作捕捉下来的数字化动作里去识别意图,识别一些手的各种形态以及赋予一些事件反馈,那个才叫手势识别,并用手势识别去做一些控制。
简单来说,比如我用典型的握拳作为确认或者说像HoloLens那样,把手虚握上举摆成一个小花的形状,晃一晃就能取消,这都是典型的手势控制。再比如说我现在要翻页,我用手朝着背后的这个屏幕做一个划动翻页的动作,让它识别出来我是要翻页,这些都是叫做手势识别,手势识别最大的问题是有不小的失败概率,或者说它不能保证你的每次操作都可以得到回应。但是如果让你用Touch Controller按一下Home Button,那么这件事情的成功率是多少?成功率是100%。我让你摁A键、摁B键、摁个Menu它的反馈可靠度无限逼近100%,而且我有得到明确的触觉/物理反馈。所以从操作成功率和反馈这个层面上面来说,手柄或者说一个6自由度的Touch Controller,在乐趣,或者说确定感的方面,要远胜裸手交互,是用户需要的。
从这个层面上面来说,我们并不能说接下来继续发展用裸手的VR的人机交互就一定优于Touch Controller,只能说他在某些层面上面是优于的,比如能看到手的动作很容易学习。但是在交互的乐趣、确定性、成功率等等方面它其实是不如传统的六自由度手柄的。
因此你会发现即便是连Oculus这样的企业,已经将一套蛮好用的、确实能work的裸手追踪和识别以及交互的范式已经拿出来了,但是依然没有把它放到主要的交互模式位置上,而是把它放在次一级的交互可选项上了。你也许会不用控制器,使用裸手简单操作试试看,玩玩看,但是大概率还会再把控制器拿来用(至少我本人就是这样)。
所以从人机交互的角度上来说,第一个阶段是在解决有没有的问题上,技术赶不上需求。第二个阶段其实是技术不知道需要什么东西,还在试错,包括现在出现了一些其他更多的“企图”成为人机交互新范式的一些技术,比如说眼动追踪、触觉反馈,这样的一些相关功能,它到底能不能引入到虚拟现实当中变成主流的交互手段,我确实是不知道的。
当然,在一些比较特殊的应用场景里头,比如说对眼动有具体需求,对于触觉反馈有非常明确需求的时候,当然它会能够给我们带来更多的benefit,但是在我们讲主流的,平台级别的VR交互手段时,我确实是怀疑,目前手里握的这对六自由度的手柄搞不好已经是目前性价比最高、最合理的解决方案了,会存在、霸占很多年,就像鼠标和键盘一样。
VR陀螺:所以原本引入新的交互技术是为了提供更加强劲的沉浸式体验,而技术的不成熟会反而使其体验倒退。这种体验是因为给予用户过高的期待所导致的?
戴若犁:是的,因为当你能够看到自己的手的时候,人的期望值就提高了。
我给你一个手柄,然后告诉你可以用 Laser Pointer,也就是上面这样的一束激光,可以把这个本子捡起来,移到另外一个地方去。你的期待里没有能感知到这个本子的重量、惯性这件事情,但是当我给你看得到的一双手,而且你发现你的手指和虚拟手指可以联动,而且动的还挺像那么回事的时候,你的期待就变成我确实要摸到它了。所以人的期待没有得到管理,这种情况下一旦给到的是没有能够提供真正力反馈的交互体验或者说更好的满足其他感官需求的时候,这件事情其实就会变得挺麻烦的。人的期待被无限拔高了,因此用户在有瑕疵的交互体验中大概率会觉得它不好用,并且操作起来不便。
VR陀螺:您刚才有提到手势动作捕捉和手势识别是两种概念。如果放在虚拟社交层面,已经有厂商在致力于打造非常自然的人物形象,这需要追踪头和手以及其他任何地方。甚至于有厂商推出了可以捕捉腰部、脚踝动作的硬件产品作为VR头显套装中的新配件售卖。您觉得他们走的这种方向是值得期待的吗?还是说也会出一些问题?
戴若犁:这件事情其实我们要分应用场景,假如说您刚才描述的这种方案,它面对的是C端应用场景的话,我其实是存疑的。如果是面对商用端B端的一些应用场景的话,也要分是哪一种商用场景,如此的重视身体的感知或者说身体的可视化,而且能确实给他的应用场景带来益处,带来真正的价值才有需求。
退回来说为什么我不看好消费级别,目前在消费级别上把这样的一套系统做便宜,其实不是最大的问题,即使是现阶段的头显+两个控制器,消费级别的设备销量也没有做的特别好。我们现在可以看到从销量上面来说虽然逐年上涨,但是销量跟常规的消费电子产品来比,至少相差100倍,所以大部分内容制作者现在也不太能赚得到钱。其实这也是因为XR设备目前还没有办法在消费端大面积推广。也就是说,现在即便是只有一双手,两个控制器和一个头显,它对于普通人来讲已经存在一个比较大的设备穿戴压力了,或者说存在一个比较高的复杂度了。其次,经济上肯定是为用户带来了更高成本,但其实购买成本永远都不会是最大的一个障碍,系统复杂度的成本才常常是一个难以逾越的大障碍。
目前这套系统即便是到了Quest这么简单易得的状态,系统复杂度仍然是一个推广虚拟现实应用者数量的非常大的门槛。如果在这个前提假设下,再给它增加任何的复杂度,那么对于整件事情的推广,就好像是在一个漏了100倍的小众人群的漏斗里还要再漏,漏到那些可以继续增加复杂度,继续增加成本,继续愿意穿戴,而且还没有什么大量的内容支持你这种工作模式的用户(因为就这种小众的方案能支持他的内容,大概率就是由他们家自己做的软件,或者说他的合作伙伴帮他做的一两个内容)。所以当漏斗漏到我刚才说的第三层的时候,在用户量方面我认为就可以忽略了,或者是说他们企图把这一个小用户量再发展上来,往上再走一层,这个难度会非常的大。再者,人机交互手段通常只能由原厂来定义,由平台方定义。想要由第三方来定义To C端的人机交互模式难上加难。比如游戏领域,即便是任天堂作为原厂,也没有带出来Ring-Con的这个市场,更不要说靠第三方来定义了。
任天堂以前的Wii手柄确实是带了一大堆手柄的周边,但那也仅仅是周边而已,它不是核心的交互手段,Wii的手柄、平衡板匹配的内容生态仍然是任天堂原厂官方做的东西。
所以,从人机交互手段这个角度上面来讲,我非常的不看好把系统复杂继续在C端推高。但是话说回来在B端的发展我是看好的,因为B端的用户,他们相对来说不是特别在乎成本,比如说咱们玩VR基本上一体机三四千块钱投入成本, PC VR 1万块钱左右投入成本,但B端基本上在3到5万块钱一个用户,这样的平均投入成本是没有问题的,复杂度方面,因为那是他的工作,他可以承受更大的复杂度。学习曲线方面,这是他要用来谋生的手段,他愿意付出时间去进行相对比较长时间的学习。所以复杂度、成本、学习曲线都不是问题。到最后没有内容支持这个事儿都都没有关系,因为B端的需求都可以定制化内容。
所以刚才您问的我的问题其实分两说,C端我是特别的不看好,B端可能有机会,但是得他自己去做项目。
VR陀螺: 如果说太过激进的去追求技术的交互并不是非常好的事情,但现在也有一些厂商去追求这种3DoF+超短焦的体验,退而求其次主打这种视频或者小游戏的方向,您看好这样的新的方向吗?
戴若犁:我们先说超短焦技术,华为、3Glasses这些厂商都有超短焦的产品,然后也有传闻说Oculus的下一代产品有可能在超短焦和其他方案当中选一个,他们也在考虑这个问题。
其实超短焦这个事情很难说是技术进步还是妥协,因为你要是从沉浸度和显示的表象上面来说,超短焦其实有硬性短板的,它的FOV受到限制以及超短焦必须要用菲涅尔镜片(一圈一圈的非球面镜),这种非球面镜在显示上面有色散现象以及对比度大的场景里有一些白光,这样的一些缺陷其实是退步。但是它好处显而易见,因为它可以让轻度应用场景里的人负担更小,视觉上面给人异样感更小,所以其实大众会喜欢。超短焦对于普通的用户来说一眼看上去亲和度比较高,戴上去负担比较轻,甲方、领导们看着也能理解这个东西,感觉比较先进,这件事情在商业上其实还蛮合理的。
但是从发展上面来说,我认为它是一个中间状态,或者说它在目前并没有更好的解决方案的前提下,稍微牺牲视觉表现(如FOV、菲涅尔镜片),能够有更轻便、更小巧、更舒适的体验。这是在沉浸度的技术追求、舒适性、小尺寸美观度、对人的干扰以及负担几个点上找了一个折中点,所以它其实并不是一个极致技术追求,反而是一个轻微牺牲体验去换取其他方面的优势的方案,对超短焦这件事情上我只能描述到这一步。
对于目前选择了超短焦方案的这些厂商,我觉得他们选择还是挺明智的,因为对于普通民众,包括一些需要领导做决策,进行批量采购,再比如说绑着大的运营商去卖,从这些事情上面来说,这确实是普通人能看得懂的一个提升。对于非从业者而言,大家会觉得很先进并且更加愿意为此付出成本来接受这样的技术,我觉得就够了。所以从商业上面来说,它有一定的价值,从长远上面来说是一个中间方案,这是我自己个人的观点。
VR陀螺:从Quest的迭代的步伐也能看出来,在体积小和性能方面,它选择了一个折中点,Quest2比Quest的体积要小,但是又没有小到那种超短焦的地步。您刚才提到超短焦是处于中间节点,也就是说可能在未来比较被通用的一款头显形态可能会比短焦产品大一点,但性能强悍很多。
戴若犁:对,很有可能会是这样的。因为从结构设计、光学设计上面来说,如果想要保证目前FOV的状态,以及视觉体验沉浸度状态的前提下,把头显再做的比Quest2小很多,其实是非常困难的一个事情,至少是Oculus目前的销售体量是无法支撑更加优秀的设计方案的。所以我认为 Quest2的这种形态、尺寸,以及结构和光学解决方案,可能会在比较长的一段时间维持一个稳定的状态。
长期看好XR交互在B端场景应用,但提升新技术系统鲁棒性迫在眉睫
VR陀螺:那To B这块呢?
戴若犁:在To B应用方面可选和受到的限制就会小非常的多,因为在应用方面、在成本方面、在系统复杂度方面、在学习曲线方面、在内容定制化和专业应用场景的缩窄这些事情上,它都更加优于C端技术而进一步的前进。
关于To B领域,诺亦腾选择的几个方向也是我们认为更加复杂的人机交互形态(包括动作捕捉、超短焦、力反馈、触觉反馈、眼动追踪等等)可能有用武之地的领域:
第一个是仿真领域。这是一个很大,历史非常长的领域。至少30年以前就已经有人用虚拟现实这样的手段,包括用cave这样的形态,或者是像上一个世代的头显这样的设备去进行仿真。而仿真里又可以比较清晰地分成两块比较大的需求,一块叫做工业仿真,像结构设计、工业设计、有限元分析,像BIM这样的建筑设计类应用等。这个行业里面确实引入更多的人机交互的手段,引入更复杂的系统去把人数字化,把人引入进来去做比如说像人机功效分析,比如设计一个汽车,它需要把人摆进去看汽车的驾驶舱够不够大,可视性可达性能不能满足需求。用虚拟现实结合交互技术让用户在物理环境里进行肢体动作交互体验,甚至于一些反馈和半实物仿真都是需要的。
目前,诺亦腾服务过中国商飞做的像C919像ARJ这样的国产大飞机的分析;也服务过中国的深海科考,参与完成了中国奋斗者号,深海勇士号里面跟仿真相关的很多工作。这个领域我们在做,也是因为我们认为有利于B端的虚拟现实人机交互这一块的发展,可以用到更多的、更先进的、更复杂的、成本更高的一些交互手段。
第二个是多人实训,也是目前我们在做的。比如说应急、消防、军事训练方面的一些仿真,在这样的环境里,它会大量地牵涉到多人的人机协同、小组编队、红蓝对抗、红红对抗,它牵涉到很多人在几百上千平米这样的大空间。同时可能牵涉到几十人的数字化。人的动作要引入进去,包括我们之间的交互协同,运用了实体道具的一些演练。在这样的环境里,我们把它跟C端比,确实可以引入更多更复杂的系统,也有利于推动技术的进步。所以关于“在应用领域对这样的一些交互技术是否更有需求”的问题,结论是显而易见的肯定的,而且确实是有成单、落地的项目应用案例,这是让我们觉得挺欣慰的一件事情。
VR陀螺:从To B方向来说,这些技术真正应用到这些案例中还存在哪些技术瓶颈呢?比如说在客户的需求方面?
戴若犁:有的,其实这些技术点都已经存在了,或者说如果只是将这些技术点、demo单拿出来简单用一用,其实都挺成熟了。
但是我们碰到复杂的工业仿真环境、多人实训环境,在那种复杂系统下,一下有十几套或者说几十套设备要同时运行,并且要满足几十个人同时协作工作的需求,复杂度一下就提升了。
单说头显,假设有几十人要在VR环境中面对面开会,它的数据的优化、压缩、同步,我们互相说话时,声音不会掩盖其他人的声音,或是说能够保证我们不中断,其实就是非常复杂的。其实可能在座的观众不知道,就咱俩这个对话,都还是要花挺长时间去磨合的。要把我们俩摆在合适的位置,要把我们形象调整到一个合理的状态,提前要给我拍张照片,然后生成我的一个虚拟人物形态,要保证两地网络的质量,保证咱俩都不要掉线,咱们两个人这个复杂度就已经蛮高的了。
在系统工程里头复杂度或者说失败率这种东西它不是做加法,它是做乘法的。比如说我有10个人,我们每个人的失败率是1%,但是0.99的10次方是多少呢?拿计算器算一下是0.9,这个失败率就很高了。这意味着我们10个人里边大概率会有一个人掉线,或者有一个人出现系统的故障而导致整个业务的崩塌,所以在To B领域里头,我目前认为最需要做的事情是解决系统工程和复杂度这件事情,保证多人环境下面的鲁棒性,可以说是系统稳定压倒一切。
而技术的单点的发展,市面上有的这些技术,刚才讲到的一些先进的技术,比如说三维扫描、声音同步、 VOIP、动作捕捉、数学反馈、半实物仿真这些点都已经足够好,并不是它们赶不上应用的需求,而是系统的复杂度,复杂系统的鲁棒性问题急需解决。到目前为止,我并没有看到市面上有特别好的,或者说比我们的好特别多的多人工业仿、多人实训方案,因为解决复杂度,解决系统鲁棒性这件事情非常的难。
VR陀螺:那么在这一块,如何找一个平衡点来尽量给客户提供一个鲁棒性的系统体验的呢?
戴若犁:首先第一个是要降低对方的需求,就像我刚才说的,你把一双手放在人的眼前,他的需求就被提高了,他就想摸东西了。同样的,当你把一个单体的模拟的工人放在一辆车里头给甲方看的时候,他的需求一下就被提高了,他会希望我能不能在全世界,比如说大众汽车在中国、德国、美国都有office,我能不能多个office当中的30个人同时可以来评审这个事情,而且在30个人当中可能有10个人可以真的坐到虚拟的车里头去感觉一下我设计的方案可视性和可达性来进行分析,他一定会提这样的需求的。在这个时候就需要我们做技术、产品的人能够知道技术的边界在哪里,要控制他的需求,所以控制需求其实反而变成了第一要务。
第二个就是在选择技术手段的时候,只能选择真正在单体使用的时候能达到接近100%可用性的技术,如果在单体demo使用的时候还要花很长时间调试,或者是说它只有95%的成功率,其实在一个复杂的串行系统里它仍然是完全不可用的。所以尽量选择成熟的100%成功率的技术方案提供给客户,这也是重要的一环,而不是它想要啥你就给他啥,他的预期会高到你根本没法满足。我们自己在选择技术的时候,确实还是只能选择相对就在还没有被To C端用起来的这些先进技术里头,也要选相对成熟的技术才能用。太早期的技术确实只能用来做科研。
成熟技术的使用、降低用户期待值是对行业负责的做法
VR陀螺:近两年,像Facebook这种大厂也是在很多这种技术方面去进行一些深入的研发和落地。您觉得他们是想基于什么时间点把它去融入其中?对于面部识别、眼球追踪等技术的使用,长时间内不会在C端看到曙光吗
戴若犁:那没有,我其实觉得因为有一些技术的准备,或者说它的导入是前置的,比如说咱两个虚拟形象的建立,首先它是一个一次性的工作,并且它是一个前置的工作,我们可以先准备好了,然后之后可以很长时间用咱俩现在的形象去做这个事情,所以这种技术的导入其实蛮好的,因为它不会持续的给我们的系统增加复杂度,带来不可靠的因素。
还有一些技术虽然会持续的参与到系统当中来,但是他失败的惩罚非常轻。比如说你刚才说的面部识别和唇语识别。比如说咱俩现在嘴唇其实在动,它应该用的是一种类似于像Lip Sync这样的一种技术,通过音频去尝试还原了咱俩的嘴唇动作。这类技术,即使没有正常工作,大不了就是嘴不会动,面部表情没那么逼真,但实际上并不影响我的正常交互过程,也就是说这个新的尝试在VR里对用户体验的惩罚非常小,没有特别大的代价。
所以这种新技术引入进来,如果它真给我们带来体验提升是蛮好的一件事情,他如果不稳定,最多也就是跟没有是一样的。所以系统工程学的角度上面来说,虽然这种技术它比较先进或者说不太稳定,但是依旧可以早一点引入进来。但是刚才说的像全身动作捕捉、手部识别这这些,它作为主要的人机交互方式,这个东西出问题用户就没法操作了,这和前者的交互技术的嵌入是两码事。
所以说如果是后者,这种技术就得要非常谨慎了,甚至于可能对人会带来不舒适感。比如者说你的眼动追踪直接跟区域渲染相关联,当眼动追踪出现失败率的时候其实是很恼人的,会让人无可适从,或者说会引起一些错误的操作,就动到用户体验的根本了。
需要甄别的是,这项交互技术只是为更好的交互效果增光添彩,还是说而是变成了主要的人机交互手段,这两种情况下用户对于尚未成熟技术的接受程度完全不是一回事。因此,尽可能用成熟技术,尽可能降低用户对你的期待值,这是对这个行业负责的一种做法。
技术微创新、微迭代对B端、C端存在不同发展阶段
VR陀螺:从这个角度上来说,您觉得接下来的2~3年XR设备在To B和To C两方面的形态发展会是怎样的情况?
戴若犁:“虚拟现实的输入与输出在C端的形态,想来不会有啥革命性大变化了吧。”——这是我PPT最后一张图上的一句话,它代表了我对C端VR交互产品发展方面的一个回答,我比较坚定的认为,目前咱们现在使用的这一代VR设备不会有太多新的技术被引入进来,他会在目前已经用到的技术上面去做微创新、微迭代,它可能会收敛到更小更轻,分辨率更高更好,加装更立体的音频,手部的识别会更加精准,不怕遮挡,范围更宽,不会丢失。控制器可以更好地还原手部动作,握感更好,并且可以提供一些被动的或者说半主动的触觉反馈......它会引入这样一些微小的改动,但是它不会有革命性的大变化。未来只会有一些微小的迭代,这些仅仅限于我标红的 C端,在B端方面我还是比较乐观的。
在B端方面还会有比较多的交互技术被逐渐的引入进来,理由其实就是我刚才所说的B端受的限制要远远的小于C端。应用领域在各个方面的限制度很小,所以它对于XR产品的功能、交互提出更多应用场景下的可扩展性使用需求,同时对于应用的技术手段的稳定性,高性价比会有进一步的优化升级,那么最终它就可以鼓励更多的新的技术手段融入其中,这反过来也会倒逼技术厂商将单体技术的承受能力提至更高,进而在集成系统工作时提升准确率。所以在B端会有大变化,而且会每年都会看到一些非常新的东西出现在我的视野中。所以如果想看新东西,想看新技术还是看B端,如果想用到真正稳定的系统、舒适的体验那 C端也会慢慢的迭代。
VR陀螺:诺亦腾做B端方面,那会考虑B To C这个方向吗?
戴若犁:对于B To C这个领域,我们擅长的事情,相对C端的用户来说复杂度会比较高一点,但可能在To C端的一些手部动作捕捉的算法方面,如果有一些C端的厂商需要算法的贡献,就这方面我们是可以去聊一聊的,但是在其他方面我们可能短期之内不会往C端直接做内容,或者说往C端直接去做整机的这样的系统,这也不是我们擅长的事情。
VR陀螺:从B端的角度来说的话,随着技术、交互模式的不断发展,其呈现的未来XR设备的形态根据不同的应用领域定义会各不相同吗?
戴若犁:没错,这个是我特别乐意去聊的话题,我其实不止一次的向 HTC和Oculus高级别的同事,包括国内一些比较大的厂商聊这个话题。我建议他们把产品线清晰的分成C端产品和 B端产品两块,用不同的定价去服务不同的人群,也可以有不同的形态,而B端的形态一定是绑定场景的。
比如说专门在车内用的头戴式显示器,可能车内会用AR的头戴显示器,就不会是VR。比如说专门应用于多人军事仿真的头戴式显示器、专门应用于工业设计评审、结构设计仿真、工业仿真的头戴式显示器和虚拟现实的整套系统。
B端大厂目前没有去做,是因为坚守着一个非常固有的认知,即大厂做B端是挣不到足够多的钱的。做B端都是小厂做的事情,我一定要做C端。但是如果VR继续往后发展,它可以在一个特定的行业领域里边变成标配产品或者说一个常用配件,它能支撑的体量其实是足够大的,因为你卖一台B端头显带来的利润相当于C端这边卖20台。
B端的用户愿意为这5%的技能提升付出5倍的价格。B端用户花钱的思路是我的budget是多少,那么我会考虑我的budget去选市面上性能最好的那一个设备。所以其实大厂愿意做C端,B端这些绑定了众多场景的设备、技术需求就会逐渐向中等厂商或者小厂商下移。但是小厂的体量,容错能力,技术实力很难去做硬件平台这样的东西,因此其实我会非常乐于能见到有这样vision的一些大厂,愿意伸手做B端的专用设备。
VR陀螺:他们为什么不这么做呢?是因为比较耗费财力,还是说主要是生态上面的问题呢?
戴若犁:其实算的就是经济账,除了非常少的有 Vision的一些厂商会去真正帮助人类走到下一个人机交互平台,绝大部分的大厂(包括大厂里边做VR的部门)都有活命的需求。很多大厂旗下的做VR的团队其实是有生与死的忧虑的。当这个忧虑在的时候,他是没有决策权的,就更没有胆量去尝试他不熟悉的领域。对于C端来说,至少还可以说服他的老板或者他的母公司,我好歹在帮你收一些用户数量,这搞不好是下一代的C端的交互平台,你总得在圈子里先呆着。但B端不一样,如果胆敢说要去做B端的应用场景,你的老板/母公司一定会说你要给我挣回钱来,你都做B端、用户量都不够了那我就用挣钱这件事情作为KPI,从业绩上去考核你。
所以他们面对的是这样的压力,并不是说想不想做的问题,其实是他们在目前这样的一个VR迟迟没有能够有比较大的用户量情况下不得已的一个结果。
如果是长期地用C端的硬件解决方案去做B端的技术平台应用。他非常类似于我们小时候搞的红白机游戏厅,我小时候那些运营电子游戏厅的人买个30台红白机,放在一个小房间里头,就去开街机店了。但最后不也没有了么,最后还是B端的专业街机(比如专门的摩托车街机、射击街机等)替代了,这样的街机最终替代了用消费级红白机当作街机的时代。用C端的东西去解决B端的问题是个短期行为,是因为B端没有更好的设备,所以我认为B端应该会有更多的有Vision的厂商在专业领域去探索挣钱的门道,找到有刚需的B端应用场景,才有可能会反过来推动真正适合B端的一些硬件平台的在这一领域的产品迭代。
VR陀螺:您觉得这个节点是到大概要什么时候?
戴若犁:应该会发生的比较快,我觉得核心原因就是在C端其实已经跑出来几个领头羊了,将来也就这几个领头羊能达到吃饱的状态,很多厂商在C端势必会很难生存下去。这些厂商会选择做B端的东西,同时也会力求做差异化,否则人家继续拿着C端的更便宜的产品去跟他竞争就没有意义了。
其实这种厂商已经有了。比如欧洲有一个专业HMD品牌叫XTAL,他们的总部在捷克。它们做了一个有点类似于像小派的大FOV的产品,就是拿出来明确说这就是个B端产品,而AR大厂也有人这么做,比如微软HoloLens系列。
C端虚拟现实技术方案已趋于稳定,符合内容、生态长期打磨诉求
VR陀螺:从内容和生态的建设上面,我觉得XR的交互方式也是受到它很大的牵制。如何考虑到自身的技术最大限度应用到更广泛的应用领域,让它去衔接更多的开发者和生态的链接?
戴若犁:我觉得新的这些技术或者是说人机交互这样的一些手段,如果要切入到更广泛的人群,引领的行业发展的还是就只能由原厂和平台厂商来引领,比如Oculus、Vavle、HTC、索尼、任天堂、微软这些厂商。在我目力所及范围之内,可能也就他们有能力去举个大旗引入一些新的方式,让这些新的方式能够普惠到更多的人群。
从原生技术提供方的角度上面来说,我看不到特别大的机会能够独立去把这个东西推到一个更广泛的人群。
VR陀螺:其实即便是Facebook,也是在交互方式上摸石头过河。比如3DoF的Oculus Go刚发布,引领一大批开发者加入生态,但没过太久就果断放弃并转向Quest,这其中就会有开发人员流失掉。
戴若犁:这个的确是。其实当时Oculus这个产品发布后来小米引入中国,把它做成小米VR头显的时候我是非常兴奋的,Go这个产品当时让大家都寄予厚望,因为当时它的价格真的是到了普通人随手买一个回去玩玩也行的状态。
但是当时其实大家还是低估了内容的重要性,当内容数量不够,或者是说体验差异度不大的时候,就会带来不好的体验感受。不过这件事情是无法避免的,因为只有大屏内容跟不上的情况下,对消费者来说VR体验跟在手机的屏幕上的差异度不大,因此这种方式必然会逐渐被淘汰。
XR产业正处在不断发展的时候,有时候试错造成的损失是不可避免的。比如在iPhone4真正把智能手机推广之前,有多少奇形怪状的手机。从纯功能机到iPhone4这段时间其实出现了很多不同的东西,而那个时候也正是手机行业百花齐放,手机功能最值得把玩的阶段。我那个时候在香港生活,基本每半个月到一个月就会换一部手机玩。
但是到了现在其实换手机的冲动很低了,因为大家都已经同质化了,一个多点触控的大屏解决一切。从产业的角度上来讲,好玩不代表有业态,真正的稳定,收敛到性能好,体验好的状态才是有了业态。
所以说我刚才那个结论说C端的虚拟现实的技术方案已经趋于稳定了,可能不会有大的革命性的翻天覆地的变化了。这件事情对于生态来说其实是一个大好事,因为大家可以沉下心来,扎扎实实地去长期的积累,去做更多的好的内容,去满足这个市场的需求。因为在未来可见的一个短期时间里头,不会让你再有一个失望的surprise了。比如类似开发者好不容易做了一套东西,到时候过了几年又有一个完全全新的显示和人机交互的系统去把它颠覆掉的情况出现了。
VR陀螺:对于整个XR产业发展,您觉得诺亦腾在其中所扮演的角色是什么,又有怎样的未来期望和预期呢?
戴若犁:诺亦腾从2015年创立开始就在做跟VR相关的一些工作,我们的Vision,做的事情选择的道路其实一直都是非常坚定的,就是第一我们是一个小公司,在整体系统这个级别做不了To C的东西,定位就是服务B端的用户。
第二我们最擅长的事情是跟人机交互相关的,更加专注下来是跟动作捕捉、手部动作捕捉以及它衍生的一些应用,这些是我们特别擅长的事情。
所以对于这个行业,我们是特别希望能够在一些有价值有前景B端的领域里头,好好的服务产业,能够落实一些真的不是用来给领导做汇报,而是真的B端的应用场景能够用起来的一些解决方案。这是我们想做的第一件事情。
第二件事情,是在我们熟悉的人机交互,动作捕捉,人的动作手的动作的数字化这件事情上面,能够给行业做一些服务,不管是我的公司还是我本人,都愿意为这个行业做一些服务,比如说有一些企业如果对这个方面的一些技术不了解,需要一些支持,我可以给他们做顾问。我们也希望能够推动这个行业的发展,确实是有很多人也来找我们去合作或者是咨询。我们给他们贡献知识也好,贡献解决方案也好,希望能够在这行业里面帮助到大家,所以我们做B端的服务、研究人际交互也希望在这两条路上面能够陪伴VR、AR、XR这个行业走得更远。
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息