Jetson TX1 开发板官方图
其次,假设使用的是TX1,TX1是Nvidia针对机器学习推出的嵌入式系统平台,处理器性能提升并不明显,侧面反映了Magic Leap设备目前通用计算的量不大,而含256个CUDA核心的GPU肯定是为了MR设备的高图形运算需求而生的,但是带来了另外的发热以及功耗方面的困扰: 巨大的风扇和开发板直接用AC电源输出,这块峰值功率达到10W的开发板,不知未来小型化的前景如何,虽然一个“外置式”的计算模块对重量要求可能会降低,但是“板砖”估计也不能被接受的。 技术总是在不断衍进的。刚刚发布的Nitendo Switch就搭载了Nvidia最新一代的Tegra Parker处理器。不排除Magic Leap已经跳过了TX1直接上Parker平台,毕竟TX1硬伤太明显,Nvidia并没有在这一代平台上发力,有可能集中精力在做下一代Parker平台。 附上Parker与TX1、TK1 Spec对比 看上去是干活的,但是究竟干得怎么样? 首先,这里要明确一个观点:技术的边界是趋同的(特别是做软件、算法层面的公司)。在对真正前沿科技的探索上,同领域的顶级公司技术差距其实并不大(因为大家用的技术框架其实都很类似)。 举个例子, 在图像识别领域,每年ImageNet的比赛顶级team之间的差距并不大(标准实验室环境下),每年的冠军也是轮流换,真正有巨大提升的,是Hinton12年用深度学习来做图像识别那一年,之后大家都换成了深度学习框架,竞争又变成了一个两个百分点的竞争。 当然如果变成了复杂环境或者说真实环境,大家的技术体验就更相似了:40%正确率和60%正确率,对于用户来说都是一样的:不准! 另外一个例子就是VR行业:Oculus相对VIVE,起步早一些,但是实际能拿出的产品从体验上来看区别不大,甚至PS VR虽然技术指标不如前两者,实际上却是出货量最大也最受好评的VR平台。 所以,如果我们把Hololens所定义的MR当做这个行业目前的标杆,跻身行业一线玩家行列,需要具备什么样的条件呢? 首先是空间视觉能力,或者说是基于嵌入式平台的SLAM(即时定位与地图构建,或并发建图与定位)。Hololens之所以带来这么大的震撼,主要也是因为这是第一个公开销售并集成了Inside-out追踪技术的HMD系统(什么是Inside-out空间定位技术,简单来说就是利用设备自身,而不依靠外部的传感器等配件,实现虚拟场景里的空间定位,以及更多的人机交互)。 在这之前,所有HMD搭载的定位系统都是outside-in方案,即需要外置的摄像头拍摄头盔或者控制器的mark点来定位。从使用难度来讲相去不可以道里计(用过VIVE的都懂)。Inside-out技术简示
其次,光有Inside-out本身是不足以支撑混合现实体验的,还需要空间信息或者说深度信息的叠加,才能够真正实现定位+空间重建来支撑完整的混合现实体验。深度信息与SLAM的叠加从技术难度上来说并不高,但是目前鉴于大家连inside-out还没做好,空间信息的叠加还需等待。 SLAM本身并不是一个新东西,国内也有相当多的团队在做,比较突出的包括速感科技,Perceptin等等,但是目前都还是作为一个双目空间摄像头模块存在,Ximmerse拿出了自己的inside-out方案,也是取了个巧,利用摄像头拍摄手柄上的光点进行定位,还不能算是广义上的inside-out方案。 国外目前在做空间视觉的创业公司包括Infinity AR,Occitipal等等,今年CES2017几家公司也均有参展,Infinity AR的Demo是一个飞机在桌子上起落飞翔的动态演示,但是跑道与桌子的贴合包括整体影像的晃动都很剧烈,演示效果离Hololens的稳定状态还有比较大的差距。 相比之下Occitpal的演示则更令人印象深刻,整体体验非常好,但我个人怀疑是针对特定的演示场景做了优化,实际产品能达到什么样的效果尚数未知。 大公司方面,Oculus去年宣布了自己的一体机Santa Cruz,承诺会有inside-out定位功能,Google Tango一直是移动SLAM的先行者,苹果也收购了相当多AR相关的公司,据传也在研究眼镜产品,高通也已经发布了自己的VR一体机产品,号称有inside-out追踪功能,其他公司包括ODG,Lumus,Meta等等,目前还都是在提供基于不同光学方案的AR眼镜产品,由于不具有空间视觉功能,尚不能认定为MR产品。 第二点,就是要有好的AR光学方案,Hololens包括Magic Leap都是采用了全息波导衍射光栅的光学镜片,而其他公司如ODG及Meta等则采用自由曲面、棱镜或者几者混合的光学方案。 显示技术应当说在目前来看,技术迭代的路线整体是向光波导光学靠拢的,只有光波导才能做到真正像现在正常眼镜一样大小轻重的HMD产品。 但是目前光波导镜片面临量产难度大,成本高,FOV(field of view, 简单来说,就是玩家游戏时的视野)不足的问题,相对来说自由曲面或者棱镜的光学方案则门槛更低,相对供应链更成熟,显示效果跟目前成熟的光波导镜片来看也完全不差甚至犹有过之。 Meta用很笨拙的方案就做到了90度FOV,而今年CES Lumus展出的50度光波导镜片方案已经是目前最领先的光波导镜片了,更不要说他巨大的头部器件和发热。本人实测Lumus
第三点,就是一些硬件包括其背后体现的思路,具体应当说包含三点:四摄像头SLAM,结构光以及HPU。 首先是四摄像头,感兴趣的同学大概已经发现了一个奇怪的巧合:Oculus的一体机Santa Cruz也是采用了四摄像头方案(不过Hololens的方案是左右各两个,Santa Cruz的方案是上下各两个)。 我猜Magic Leap也会采用四摄像头的方案,主要是为了在保证mapping的angular resolution的基础上,同时兼顾tracking的FOV,说白了,就是为了看得更准更宽,从而保证了定位和追踪的稳定性,这是双目甚至单目解决不了的。 结构光:Hololens的深度信息均来自结构光摄像头,包括手势识别,但这里一个有意思的事情是,很多人做SLAM的时候也会结合结构光信息来做,但这在HMD上是无法应用的,因为结构光在做空间识别的时候,识别范围较远,是不能够识别近距离的手的具体信息的,所以如果使用了结构光来做SLAM,实际上是无法同时应用手势识别的。 在Hololens具体操作时,也是预先扫描了周边环境的深度信息,然后才开始做手势识别交互。 HPU是另一个被传得神乎其神的东西,实际上是微软定制的Cadence Tensilica的DSP,内含24个核心,主要用来处理跟视觉,手势,环境感知相关的一切算法。 所以算力提升对于MR行业来说仍然是亟需解决的问题,想想Magic Leap开发板上巨大的散热器~ 所以总结来看,目前除了微软,行业内的其他玩家都或多或少的缺乏MR产品的一部分核心能力,而Magic Leap,无论从其展示的思路还是靠谱的小道消息,是最靠近这个技术路线并且已经有相当技术积累的公司。 所以,那些神视频到底怎么回事? 首先,Magic Leap总共发布过4段视频(办公室机器人大战、太阳系、A new morning以及星战)+2个动图Demo(鲸鱼以及手心小象)。 其中办公室机器人大战、鲸鱼以及手心小象都是特效视频,其余的均为“Shot directly from Magic Leap”。所以之前很多媒体报道中所谓“均为特效”是不实的,不过实拍的内容中细琢磨的话也有很多小tricks,下面详细分析一下: 1. 两张截图分别来自两段视频,但都非常清晰的显示了一个问题:桌子可以非常完美的把R2D2的身体挡住,当机器人走到桌子旁边或者镜头位置变化到有物体在前面“遮挡”图像的时候,被遮挡的图像就完美的不显示了!这是怎么做到的呢? 我们知道眼镜类的产品,镜片是所有光线进入眼睛的最后一道门户,理论上镜片上的图像是叠加在所有外在信息之上的,这种“被遮挡”的错觉显然是因为眼镜根据深度信息发现图像产生了“被遮挡”的关系,从而停止渲染那部分区域的图像,让自然光线透过镜片,实现了类似“被遮挡”的效果。 道理都说得通,问题是这里的被遮挡关系展现的太完美了,不仅图像稳定清晰,被遮挡的边缘也没有丝毫误差,这就很有意思了。可以对比一下Hololens在使用环境下,虽然也能做到部分的“被遮挡”效果,但是会产生很频繁的画面抖动,因为并不确定被遮挡的边缘以及面积到底有多少。 窃以为Magic Leap在这些演示视频中,虽然确实是实时渲染而且是实拍的,但是肯定对场景做了预先的精细扫描和建模,才能够达到这么好的效果。 这也是平时在看SLAM项目的时候的一大问题:演示视频或者场景由于有事先特定的优化,能够实现比真实使用中好得多的效果,有的时候限于时间因素不能反复测试,经常会被这样的“小把戏”欺骗,等真的详细DD的时候,又发现了这样那样技术上难以克服的问题。 2. 关于太阳系的这一段视频也是非常有趣的,展现了Magic Leap的“光场显示”技术,即在不同的景深上可以成像。演示视频中一会儿太阳很清晰,一会儿地球很清晰,是很明显的光场显示技术的应用。 这里又有一个很有趣的问题了,不是说好了用光波导的吗?光场技术到底是什么情况?实际上Magic Leap确实是有很深的光场显示包括光纤显示技术的储备,但是由于种种问题,离真正产品化路还非常远,应该说这段视频只是秀肌肉,短时间之内是不可能看到类似的产品面世的。 光场显示其实国内有团队在做,我也在中科院某所看过类似的Demo,整个光学系统就比目前的头盔还大,还只能实现7个焦距上的光场显示,完全不具备产品化价值(Magic Leap据说要好很多)。 而光纤显示,大家从光纤的属性上其实也能推测到,这么脆弱的介质,稍微用一用就会有变形,错位等等的问题,产品化的路也很漫长。 3. 关于其他的演示视频 其实除了鲸鱼那段演示视频确实是太浮夸了之外(其实你想象所有人都戴着眼镜但是P掉了就好),其余无论小象的demo还是机器人大战的demo,都是在目前的技术环境下可以实现的,大家完全不必对技术这么悲观,这段算勉强洗个地。 最后,最重要的是MR(混合现实)的未来 之所以说了这么久Magic Leap的故事,是因为MR让我振奋。以下简单说说我的观点: 1. VR、AR殊途同归,未来只有MR。 设想一下,VR一体机和AR眼镜,最主要的区别是什么呢?其实就是一个是透明的,一个是不透明的。 目前来看VR拥有更大视角以及不透明的视野,而AR眼镜视角小,但是能看到现实世界。无论VR还是AR的创业者,都很明白空间视觉的重要性,因为它本质上就是用户体验,更大的视角,更透明的世界,他们都想要。 另一方面来说,眼球追踪,手势识别,全景音效以及更好的人体工学也都是所有从业者共同追求的,未来会成为所有HMD产品的标配。而大视角、高分辨率也会是所有产品的一个共同追求。 这样看来,透明或者不透明,其实就不是问题了,只要多做一个遮罩,甚至是镜片上附一层可调透光度的膜,就可以解决这个问题。目前所有VR/AR从业者所努力的方向可以说是统一的,那就是VR与 AR合二为一。 2. 从实际技术演进来看,MR设备更容易成熟。 2016-2017年,VR行业在国内可以说从天堂到地狱,从16年初的万人空巷到17年初的惨惨戚戚,客观上反映了VR设备在普及上遇到的问题,其中最最主要的问题就是眩晕感迟迟无法解决,用户的平均使用时间基本上在15分钟左右,根本无法支撑真正优质内容的产生,从而导致了恶性循环。 在我看来,眩晕感或许是5年内VR设备无法迈过的门槛,除非用类似万向跑步机的外设,否则简单的“房间级”追踪,还是无法完美解决用户的晕动症问题。药物可能是解决这个问题的最佳方案。而MR设备则不同,能看到外面的场景包括相对小很多的FOV,都会让用户在实际使用中更容易接受。 3. PC、手机之后,下一代计算平台将会是以语音交互为核心的HMD产品。 如果你留心看CES2017,一个很大的改变就是AR作为一个单独的品类开始参展,ODG,Lumus,Vuzix,Sony,Infinity AR,Occitipal等等,成为了CES 2017少有的亮点。今年VR参展的数量很少,不过用VR进行展示的企业很多,VR已经变成一个Feature。 无论是Oculus开始招募AR团队,还是苹果要发布自己的AR产品,华为招募了前Oculus大牛做AR/VR/MR技术负责人等等,都清晰的说明了一个信息:巨头正在跑步入场。 正如之前所提过的,技术的边界是趋同的,当巨头们看到Hololens这样的产品是可实现的之后,相关的创新包括探索也会层出不穷,相关的技术人才、技术储备也会导致整个市场的百花齐放,我们正处在快速迭代的时代,科技水平的发展真的要用“日新月异”来形容。 以语音交互为核心的HMD作为下一代计算平台出现在寻常百姓家的日子,已经越来越近了。 来源;洪泰帮 关注微信公众号:VR陀螺(vrtuoluo),定时推送,VR/AR行业干货分享、爆料揭秘、互动精彩多。投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息