文/VR陀螺
太平洋时间2月2日上午8点(北京时间2月3日0点),苹果Vision Pro正式在美国上市。随着8点前最后5秒的倒计时结束,Apple Store店门外一片欢呼声,门店外排着队的慕名而来的用户有序进入店内。
从早上8点开始,店内根据排队顺序以及用户自愿安排的Demo演示,每位预约了Demo演示的用户都将能够获得1v1的产品使用和功能讲解。
图源:VR陀螺
早上6点便来到门口排队的VR陀螺也在第一时间拿到这台“斥巨资”买到的产品,算上往返机票,设备的总价已经达到4万以上。
作为苹果第一款“空间计算”终端,被寄予了开启下一个空间计算时代的产品,VR陀螺也在第一时间带来全面评测。
图源:VR陀螺
(由于之前已发布Vision Pro的相关技术解读,本文更多更多从体验方面评测)参考阅读:《苹果MR设备Vision Pro技术解析:极限堆料下,空间计算新时代开启》
相对于苹果一贯的环保风格,Vision Pro的包装比以往的很多电子产品包装要“豪华”很多。标配包装清单包括头显、充电移动电源、充电头和充电线、两块面罩、擦镜布以及说明书。
图源:VR陀螺
打开包装盒即可看到头显被非常稳固地卡在盒子里面,头显外包裹着严丝合缝的防护罩。由于头显正面为玻璃材质,所以在运输中增加了塑料防护罩,加上其容易残留指纹,还增配了擦镜布。
图源:VR陀螺
在购买Vision Pro时,所有人都需要通过手机上的深度传感器来扫描面部信息,以获取用户的3D面部数据,这个数据一方面是为了选择适配的面罩和头带,同时也可用作 3D Facetime 通话的Avatar构建。
图源:VR陀螺
包装内标配两条头带,通过头显左右两侧的卡扣可以轻松替换。第一条为苹果在产品视频展示的包裹型针织材料头带,材质柔软亲肤并且轻薄透气,头带后方较宽约8.5cm(不同尺寸宽度不一样),可以很好地包裹后脑勺,调节右侧的旋钮可以将其收紧。由于这种佩戴方式将所有重量聚焦在面部,所以整体舒适度有限。
图源:VR陀螺
另一条为魔术贴松紧头带,类似现有VR终端,只是相比其他VR头衔的横纵交叉分布,Vision Pro头顶上方的带子改为横向延展,避免了将头发纵向分成两半的尴尬情况。这种佩戴方式除了后方和额头可固定外,还可以将头显重量有效分散到头顶,虽然美观程度比第一种差,但佩戴体验明显优于第一种。
图源:VR陀螺
头显前方为玻璃材质,四周为铝镁合金,与苹果其他很多电子产品风格一致,银黑配色非常高级。玻璃外观带来了极高的质感,但缺点也显而易见,除了容易沾染指纹外,易碎以及对头显重量带来的负担,不得不让用户在使用过程中小心翼翼。
图源:VR陀螺
Vision Pro采用3P式Pancake光学,相对于2P结构成像效果更好,但体积也会更厚。根据VR陀螺测量,去掉遮光罩后头显最厚的部分约5cm,加上遮光罩及面罩后厚度达到7cm,整体重量为623g。相比Meta Quest 3,Vision Pro更重。
图源:VR陀螺
包装盒内的两块面罩均根据头围扫描后自动适配尺寸,分厚款和薄款两种,舒适度差异不大,或许是为了适应屈光人群,由于屈光镜片增加了透镜的厚度,厚款面罩可拓展成像距离。
用户在购买时可选配149美元的蔡司的屈光镜片,需要提供验光单来获得最精准的度数。镜片采用磁吸设计,非常方便使用,只是对于头显来说无疑又增加了部分重量。
由于Vision Pro主要交互方式为手眼协同,并且其具备精度非常高的Slam定位,头显搭载了超级多传感器。包括12个摄像头(其中两颗4K彩色摄像头用于Video See Through)、5个传感器(1个 Lidar、2个结构光深度传感、2个IR红外传感)和6个麦克风,共23个感知传感器,分布在整个设备的外侧,用来处理Slam空间环境感知、手势识别、三维建模和眼动追踪等信息。
由于头显感知全靠这些传感器来获取,所以如果玻璃外壳碎裂可能直接导致空间定位和交互受到影响,这也是区别与以往手机、手表等电子产品的地方,显然摔落测试不适合Vision Pro。
外部扬声器位于头带两侧,之前在Vision Pro的技术解读文章中曾经提到,苹果为了这款终端使用了其独有的空间音频技术,所以从外观来看,音频模块的体积也比众多VR/AR产品要更厚重一些。
图源:VR陀螺
头显正上方和底部均设置了散热孔,由于极限堆料,据了解Vision Pro的功耗达到18w以上,所以需要更多的散热模块,高功耗对续航也带来了非常大的负担,所以可以说续航是目前头显的硬伤。
图源:VR陀螺
Vision Pro上的物理按键非常少,只有头显左侧上方的按键以及右侧的数码旋钮。左侧按键可打开相机,进入空间拍摄界面。数码旋钮功能较多,按一次可回到Home界面,与手表的菜单呼唤功能一样;双击两次可以回到空屏状态;音量调节、虚实空间程度调节都靠旋转来完成。
数码旋钮,图源:VR陀螺
标配的移动充电电源为3166mAh,体积比常规的10000mAh充电宝体积更大,重量也达到了354g。实际测试,持续使用的续航时间可达3.5小时,与现有的大部分VR/MR头显的续航时长基本一致。不过如果在室内办公或者客厅场景下,可以让充电宝处于持续充电状态,也就没有续航焦虑了。
图源:VR陀螺
标配充电头采用30W Type-C 快充,实际测试1个小时30分钟可以充满电。
以上为Vision Pro最基础的标配清单,苹果官网上还提供了非常多的配件可选择,如上文提到的屈光镜片,还有收纳盒、充电线等。同时头显也有256GB、512GB和1TB的内存版本可选,价格分别为3499美元、3699美元、3899美元。
以下为Vision Pro产品完整参数:
接下来是Vision Pro最为惊艳的体验部分。
跟苹果所有的终端激活开机一样,不同国家语言的Hello字样会出现在屏幕中间,之后跟随引导完成手势和眼动追踪设置即可进入主界面,整个流程大约3分钟。
1、手眼协同:符合“下一代计算平台”定位的交互方式
Vision Pro的交互方式包括手眼协同、语音、物理按键以及外设。主要的交互方式为手眼协同,不得不说这Vision Pro上最惊艳的部分。
虽然手势识别和眼动追踪并不是新技术,均在各自的领域应用多年,但以往都是分开发展,苹果是首次将这两项技术结合在一起进行交互的公司。相对于PC的键盘鼠标以及手机的触屏交互,手眼简直是一种会让人上瘾且极其简单、易用、轻松的交互方式。
VR陀螺分别从便携性、易用性、学习成本、可靠性、精准性、自然度六个维度对比了键鼠、触屏和手眼协同交互,可以看到手眼协同在交互方面的便携易用、学习成本和自然度方面优势非常明显,虽然可靠性(出现误操作的比率)会比其他两种高,但未来也可以通过算法提升得到改善。
图源:VR陀螺
原本以为手眼会让眼睛和手容易出现疲劳,实际上并不会。如果仔细观察可以看到Vision Pro的硬件设计、交互与UI相辅相成。
头显外的传感器主要分布于偏下方的斜面位置,这是为了更好的实现间接手势。在手势交互中分为直接手势和间接手势,直接手势可理解为手与虚拟物体直接交互,手需要“接触”到虚拟物体来进行操作,如点按、拖拽、拉伸等,这种交互方式在之前的众多VR/MR终端中非常常见,如微软的HoloLens等,所以交互时由于需要长时间抬起手臂,所以很容易出现疲劳。
间接手势是苹果提出的新的手势交互,坐躺姿势下,手自然置于腿上轻轻捏合就能实现点击,传感器位于头显偏下也是为了避免抬手出现疲劳,更好地捕捉到手的动作。
Vision Pro目前支持6种手势交互,主要动作都是拇指和食指捏合,配合眼动可以实现单击、双击、拖拽、旋转等操作。
陀螺君测试了捏合手势的识别程度,如五个手指呈爪状捏合依然可以交互,握拳状态下无法操作,点赞手势不可操作,OK手势可操作,可以看到算法设定的交互的基础前提是只要识别到拇指与食指捏合就能成功完成交互。
相比苹果的电脑界面中应用框的关闭、最小化和缩放位于左上方的设定,Vision Pro的UI界面调整幅度较大,这与前文提到的硬件设计、交互与UI相辅相成有关。
图源:VR陀螺
从眼动追踪模块的传感器位置可以看到,分别位于鼻梁两侧以及双眼下方,虽然传感器与眼睛有一定距离可以帮助其获取更大的捕捉范围,但眼球毕竟是凸起的球状,当视线瞟到上方时一定程度上会影响捕捉精度。这也是为何几乎所有的UI操作界面都放在了视野下方,包括拖动条、缩放条、关闭等操作界面。
图源:VR陀螺
实际手势的位置测试中发现,手在头显正下方、手自然伸展自身体左右侧均可精准操作,水平于身体两侧亦可捕捉,在头显上方仍可识别,但头顶和背后位于传感器捕捉范围之外是不可捕捉到的。另外,从距离来看,手势离头显5厘米之内会难以识别,手臂伸到最长只要在捕捉范围内都无影响。
UI交互上,当眼睛看向应用框下方正中间时将出现拖动条和关闭按键,眼睛相当于PC鼠标的滚轮,用来选择标的,而手势则相当于鼠标上的按键,用来点击,同时也可以移动来拖动界面位置。眼睛看向的位置将出现高亮,用来辨别是否已选。
如苹果强调的“空间计算”一般,应用在空间中的自由度非常高,应用框可以多层重叠,在头显中可以明确感知到界面的深度位置差异,并且前后拉拽会有跟真实物体一样近大远小的效果。
而如果当多个应用框前后重叠,只要看向未完全重叠的部分,配合捏合手势即可将界面召唤到最上层。
经实测,手眼协同交互的精准度非常高,即便是界面中非常细小的按钮或者带有超链的小文字都能精准识别交互。
当然,手势的拓展性还有很大,根据苹果的开发文档,开发者可以在应用中自行设置其他手势。只是虽然结合了深度传感器和视觉,手指交叉等复杂手势应该还是会容易出现误操作。
2、显示画面:至今为止显示效果最好的头显
单眼4K的Micro OLED带来的极佳显示效果,显示的色彩、分辨率、画面精细度从肉眼体验来看丝毫不逊色于陀螺君的Macbook电脑的观看效果,Micro OLED屏幕相对于LCD、以及LCD+MiniLED背板的优势在此不再赘述。
Vision Pro肉眼观看FOV约90-100度之间,据了解,其PPD(角分辨率)约35左右,而Meta的Quest 3的PPD约25,显示效果提升明显。
特别是在现场Demo演示中展示的Immersive影片,高清内容+3D显示,再结合180度全景,完全足够以假乱真。
图源:VR陀螺
3、VST:仍有改进空间
VST——Video See Through,即通过摄像头捕捉真实画面来实现与现实世界融合的效果,相比AR眼镜的OST(Opticl See Through),其更容易实现大FOV,同时也更便于在VR和MR之间切换。
但VST的弊端在于对延时和对摄像畸变算法的处理,将直接影响用户体验。这也是苹果为何要在头显上增加协处理芯片的原因所在。
VR陀螺之前曾经在文章中提到,协处理芯片与主芯片来处理VST的路径差异,相对于使用主处理芯片对捕捉到的视频进行处理,协处理器的路径更为高效。
而实际体验中可以发现,畸变使用VST模式观看Excel中的表格,不论是画面中央还是画面边缘都没有出现表格线条扭曲、变形的情况,可见其畸变处理非常优秀。
图源:VR陀螺
而另一方面清晰度和延迟,前置双4K摄像头捕捉到的真实画面,相对于人眼直接观看仍存在一定差距,无法达到照片级效果,特别是在VST透视状态下快速转动头部,很容易出现模糊拖影,当画面静止下来很快会恢复清晰。并且,透过摄像头拿取真实世界的物体,移动行走,甚至是查看手机、PC上的文字信息都能够清晰可见。观看手机上的文字时需要控制头显与手机之间的距离,最佳距离范围约30厘米以内,太远文字会变模糊。
延迟方面,官方曾经提到低于12ms,从VST透视状态下在PC上输入文字,或者是进行其他较快速的操作时,几乎都感知不到透视所带来的延时。
之前的技术解析文章中也曾经提到,苹果的VST相对于其他的VST差异在于可以任意调整虚实程度,通过数码旋钮来精准控制虚拟范围,而这也是靠R1协处理芯片完成。
图源:VR陀螺
整体来看,VST在透视的清晰度方面仍有待提升,但畸变和延迟处理非常优秀。
4、虹膜识别等其他功能
在Vision Pro中设置了个人安全防护,由于头显为核心为近眼显示,与人眼最为接近,且内置眼动追踪模组,可直接用此模组用来进行虹膜识别,因此Optic ID成为了Vision Pro中最自然也是最为合理的安全防护手段。
参考阅读:【盘点】眼动追踪在XR中的八大应用,注视点渲染仅是“前菜”
Optic ID被用于头显的解锁、钱包和苹果支付、Persona社交的眼神动态调用、包括App Store应用下载和自动密钥填充等场景,相当于手机上的面容解锁或指纹解锁,但相对而言虹膜识别的安全级别远远高于面容ID和指纹。
图源:VR陀螺
所以每次摘取头显的时候都会进行虹膜识别,在设置Optic ID的同时还可以设置Passcode,以便其他人体验该头显的时候可以通过输入Passcode解锁进入。
眼动模组的功能不止于此,包括注视点渲染、IPD自动调节等。注视点渲染为后方算法,在体验时很难感知到,但可以有效优化功耗,减轻画面渲染负载;而IPD自动调节,在最开始设置头显时可以看到提示长按数码旋钮来调整显示模组的位置,此处即是通过眼动追踪识别瞳距来实现的。
隐藏使用小技巧:头显上方左右两个键同时按可截屏,长按开关机。头不动眼睛向上看可呼出顶部菜单,可打开投屏、录屏、蓝牙&飞行模式切换等。
至今为止苹果展示了非常多Vision Pro的应用场景,包括观影、大屏游戏、工业维修、建筑设计、3D视频通话、空间拍摄等,而纵观所展示的所有场景,可以看到苹果始终强调室内非移动场景使用,所以之前的VR内容的设计思路现阶段不一定适合Vision Pro。
在Vision Pro的App Store中,据官方表示将有超过100万个原手机或者iPad平台移植过来的应用上线,同时首发的原生应用也达到了600个。
图源:VR陀螺
App Store中没有展示所有应用类目,因此难以计算其数量,不过目前根据不同的板块划分了如“必须体验的Apps”、“Apple Vision Pro最佳应用”“Apple Arcade”、“以全新的方式做你喜欢的事”、“探索全新的空间应用”、“释放你的生产力”、“必须玩的Apple Arcade游戏”、“iPad及iPhone兼容游戏”、“不可错过的必选应用”、“iPad及iPhone优秀作品系列”以及一部分专栏合辑等。内容覆盖办公、社交、娱乐、艺术、设计等全领域内容。
1、影视视频
观影是Vision Pro的核心场景之一,AppleTV、Disney+、NBA:Live Games& Scores等视频内容平台均在首批名单中。
在Vision Pro中,影视内容的观看形式较多,如180度的沉浸式3D内容、大屏3D内容、大屏2D内容以及空间视频内容。
显示效果为画质表现提供了保障,加上平台上的视频内容都是经过筛选的优质作品,可以看到视频的质量几乎达到照片级,用Vision Pro观影的体验完全可以媲美线下IMAX影院,体验更优于家里的投影或者电视。
图源:VR陀螺
甚至现场很多人为了观影、观看赛事这一项体验就愿意为这款产品买单。
2、游戏
Vision Pro中的游戏包含iPhone、iPad移植过来的2D版,以及基于头显的原生内容,交互方式主要为手柄或手眼。如移植游戏可以使用手柄体验,而部分移植的内容也专门基于Vision Pro的手眼交互进行了调整。而这以窗口形式存在的应用大多可以在Share Space(共享空间)中共存,在空间中放置多个游戏,可以毫无障碍的任意选择游戏操作,只是游戏音乐会相互串扰。但一个人同时控制多个游戏屏幕,仿佛自己承包了整个游戏厅,非常爽。
图源:VR陀螺
原生游戏很多需要Full Space(全沉浸空间)来呈现,所以在打开一些原生游戏时原先开的很多其他内容窗口会被最小化到后台,画面被全沉浸的内容所占有。
从目前Vision Pro上的游戏类型来看,休闲类的轻交互内容居多,包括一部分RPG、文字剧情类、解谜类等。
值得注意的是,陀螺君在Vision Pro上下载的《Life is Strange》的游戏采用Unreal引擎开发,看来目前Vision Pro已经开放了对虚幻引擎的支持。而原本众多VR/MR游戏、互动叙事作品都基于虚幻引擎开发,看来未来也有望能移植到Vision Pro平台。
3、3D创作、设计
Vision Pro不同于其他VR/MR终端,其定位为计算平台,因此,游戏娱乐之外,生产力也必将是其中的重要场景。
特别是在3D创作、设计、营销等领域,AVP平台具有天然的优势。在应用市场有多款3D设计的应用,包括用于医疗培训领域的3D器官模型,用于工业设计领域的JigSpace等,基于极其清晰的画面表现,3D模型在画面中看起来仿佛真实一般。
图源:VR陀螺
3、空间视频拍摄、录制
Vision Pro的独有功能包括空间视频和空间照片拍摄,而后iPhone 15 Pro系列也开始增加了对空间视频内容的支持。
按下头显左上方的按键即可进入相机应用,可选择照片或视频模式。关于空间视频的原理和技术,包括其带来的影响,VR陀螺有多篇内容可参考。
《资深技术专家解读苹果Vision Pro的3D拍摄可否在手机端实现》
所以本文更注重实际体验的描述。当空间视频/照片拍摄时,所拍摄的范围将出现高亮,而周围则会变暗,空间视频能拍摄的范围有限,大概30-40度FOV。
图源:VR陀螺
从陀螺君看来,现阶段的空间视频清晰度相比手机上看到的2K或者4K仍有差距,特别是在immersive的大屏状态下观看时,清晰度会进一步降低,而且可拍摄的视角范围也仍然需要提升,不过作为一种全新的视频/照片展现形态,其所呈现出来的空间纵深感是其他所有平台均难以实现的,而这也很有可能为空间视频这类视频格式带来全新的市场。
4、办公&社交
在Vision Pro中有诸多办公和社交应用,如微软办公全家桶、苹果办公全家桶、DingTalk(钉钉)、zoom、Teams、Facetime等,众多应用中都加入了苹果的Persona。
《DingTalk》
Persona是所有用户可以为自己创建的3D模型,通过头显上的传感器进行扫描,相比购买设备时只需要移动面部扫描外观之外,在进行Persona的模型扫描时,需要有微笑、大笑、闭眼、抬眉毛等动作输入,而后构成的3D模型,以陀螺君个人为例,面部整体轮廓还原度非常高,甚至感觉所有的动作是在照镜子一般真实,但头外围,如头发、肩膀的边缘部分都被虚化了一圈,看起来有些许违和。
《DingTalk》内的视频通话,来源:VR陀螺
社交和视频会议应用大多都加入了Persona,所以即便是头显用户与手机用户在线聊天,对方也能看到自己的3D模型,眉眼、表情,甚至吐舌头都能完全实时被还原出来。
办公板块重点为内容输入,目前Vision Pro支持的输入方式一共有4种,实体键盘(效率高、准确率高),语音输入(使用场合受限,效率高、准确率较高),虚拟键盘输入。
其中虚拟键盘输入也分为两种方式,一种是手势直接交互,但是目前经测试只支持两个手指,所以打字的样子看起来比较滑稽;另一种方式为手眼配合输入,眼镜作为光标看向相应的键位后,手势捏合即可输入,这种方式同样效率较低,也比较费力。
综合来看,办公场景,如果讲究效率仍最适合使用实体键盘输入。不过随着AI的引入,未来文字输入的工作量很有可能大幅降低,从而让语音变成更为核心、高效的方式。
由于现在体验的时间有限,无法将Vision Pro更为全面的体验表达出来,陀螺君后续将以更为直观的视频方式来呈现。
对于Vision Pro,陀螺君认为,虽然价格不便宜,现在也有诸多槽点,但我依旧认为非常值得入手,很多感受难以用言语来传达,需要亲自体验才能真正体会到。
“整个过程给了我太多Wow Moment,我试戴下来觉得很值得。”会上第一次体验到AVP的一位用户说道。
“当我听到AVP宣传视频里面的《Dreamer》的时候,突然一下就泪目了。”最近跟圈内小伙伴聊天时他说道。
我们往往高估一两年的发展,而低估未来十年的变化,第一代的AVP表现不尽如人意,但也亮点满满,它只是未来的一个雏形,现下最重要的是下一个时代的交互被定义,空间计算这种呈现形式被定义,方向清晰明了,未来技术会不断进步,价格会降低,划时代的应用也将出现,而我们需要做的,只是多给它一些耐心,时间终将证明一切。