文/VR陀螺
由VR陀螺主办的“Vision Pro系列开发者活动 城市系列闭门交流会”已于3月14日在杭州顺利举办。
本系列活动以各大开发者集中的城市为中心,旨在联合全国优秀开发者共同探索Vision Pro的内容生态发展,探讨新平台的发展趋势和潜在机遇。现场提供Vision Pro实机的试玩体验,闭门沙龙的形式让整个活动氛围轻松自然,促进到场的开发者之间展开深度交流。
活动不仅面向XR内容团队,也面向移动端、PC和游戏主机等传统平台的内容开发者,以便从不同角度来审视和讨论这台“空间计算”设备。现场演讲有资深开发者分享visionOS的开发经验,还有嘉宾带来关于App Store平台发展、Vision Pro原生内容生态方面的深度分析。
杭州站的圆桌论坛请到眼见科技创始人 麦子、西顾科技CEO Nikk Mitchell、易现EZXR资深XR工程师 金立涨,围绕“已有Unity工程迁移到Vision Pro上需要多少时间”“迁移时如何考量共享空间、全沉浸空间等不同模式”“哪种视频形式会成为Vision Pro上最核心的呈现方式”“共享空间的两个App之间能否实现交互”等问题展开了深度探讨。圆桌期间三位嘉宾以及主持人——VR陀螺总经理&主编 案山子都在台上全程戴着Vision Pro,这也成为活动当天一种别样的风景。
以下为圆桌论坛实录:
左起依次为:案山子、麦子、Nikk Mitchell、金立涨(图源:VR陀螺)
案山子:首先请各位嘉宾简单介绍一下自己。
麦子:大家好,我是眼见科技的创始人麦子。今天很高兴大家能够来我们这边一起聚一下,围绕Vision Pro展开讨论。眼见科技一直在做垂直于VR、AR、MR的孵化器,希望能给大家提供一个场地做交流,帮助大家做一些具体的事情,我们本身也会去做一些项目上的尝试。
Nikk:我是西顾科技的Nikk,在VR领域做了十多年,主要是影视方面。
金立涨:我是易现EZXR的开发工程师,以前主要是做iOS开发,最近迁到visionOS。今天我可能更偏向于从开发者的角度来分享一些见解。
案山子:那问题就从金总开始。您刚才提到自己之前是做iOS开发,现在转到Vision Pro。无论是从原先iOS上的经验沿用过来,还是基于Vision Pro的手眼协同,在开发过程中有诞生出哪些比较好的点子,或是遇到了什么困难吗?
金立涨:我觉得首先要熟悉Vision Pro的生态链,然后才会有一些点子。比如我最近在做手势,那肯定要先了解苹果提供了哪些API。参考DEMO里有个游戏叫《Happy Beam》 ,是通过“比心”去射击。这个游戏实际上是通过手部关节点去计算一个比爱心的手势,既然知道了它能够拿到手上这么多的关节点信息,就会设想除了系统默认的捏合手势之外,还能不能做握拳的识别,或者在射击类游戏里比出手枪的姿势……诸如这类想法,然后再去做一些尝试。
我们正好在用Unity做开发。Unity跟苹果最近合作挺密切的,之前在WWDC的宣传也说了用Unity可以直接开发visionOS的App。所以我们就会去看Unity给visionOS提供了哪些东西,发现Unity的那套UX(用户体验)其实做得相当好。比如符合UX的那套规范,只要你去实现了,就能够直接用一套代码在visionOS还有Meta Quest之类的平台上跑起来,减轻了开发者的工作量。
当然坑也是存在的。因为苹果这些东西都是很新的,像API文档之类都还不完善,遇到问题并不是到Google里搜一下,借鉴别人的一些经验可以快速找到方案。很多时候除了搜索,我们只能去看官方的原生文档、原生DEMO,从零开始解题、答题。会有诸如此类的坑。
Nikk:现在都是用SwiftUI开发吗?
金立涨:我们最近主要是在迁移已有的游戏,因为我们公司有用Unity做了一些东西,所以目前visionOS原生相关的内容会做的比较少一点。SwiftUI我们也用过,但主要是在iOS上。
麦子:原先已经做好的Unity工程,现在迁移到Vision Pro上大概需要再花费多少时间?
金立涨:这取决于原来的Unity App使用了什么样的Shader材质,或者怎么样的写法。如果App原本用的都是Unity VRTK那套东西,后面直接用Shader Graph比较简单的,那迁移就会相当快速。我觉得整体难度属于中等偏低的水平,但工作量还是有一些的,迁移相当于从头开发App工作量的10~20%,很快就能搞定。但如果用的材质、Shader全都是比较复杂的,那要移植大概只能重写。如果Unity跟苹果那套生态打通得比较好的话,我觉得可能会比重新用原生的SwiftUI开发快得多。
案山子:Vision Pro分为共享空间、全沉浸空间等不同模式。您在迁移内容时,如何考量这些不同的模式范围呢?
金立涨:因为我们的内容是3D游戏,所以肯定是基于混合现实或全沉浸空间做考量。如果原本是手游,我倾向于最简单的方式就是做成窗口那种类型。像Apple Arcade里有很多就是窗口式的游戏,这种就比较难完全利用到Vision Pro的这套沉浸式体验,可能只是画面更大一点,但操作的便利度上甚至还会下降一点。
案山子:那么手眼协同部分的适配呢?
金立涨:我们做的是一款“消消乐”类游戏,觉得更好的沉浸式体验是直接用手去碰方块,然后去把它消除掉,这种用直接交互会更方便一点。如果用眼睛去看、再去划这种交互方式会更累。我个人的感觉是频繁用眼睛聚焦到一个点去操作还是会累的。具体可能还是要等更多的产品经理熟悉了Vision Pro的整个生态之后,他们觉得有适合的交互,再去发现用户的需求。
Happy Beam(图源:苹果)
案山子:现在苹果Vision Pro平台上有很多种不同的影视形式,您认为其中哪种形态会成为这个终端以及后续迭代产品上最核心的呈现方式?
Nikk:我评估空间视频未来会成为一个新的标准,会颠覆普通的拍摄。无论是用iPhone 15拍还是用Vision Pro头显拍,会给视频追加一个深度信息。如果用手机等平台看,还是平面的样子;如果用Vision Pro等别的设备看,就能看到立体的视频。我认为空间视频未来会变成一种非常常见的形式。
现在Vision Pro的一些争议点,我认为不是苹果对VR长期的看法,我相信苹果一定有“未来VR能做成什么样”的梦想。现在Apple TV只有180度、没有360度全景,也没有6DoF。短期内他们可能不会考虑,因为180度全景正好让用户坐在原地欣赏,不需要移动也就不需要6DOF。但未来每一年他们肯定都会再往前走,做到特别立体的全景、带6DoF的移动视频等等。
早期很多人跟我聊的时候,都没有VR视频这个概念,认为电影就是坐在影院里看平面的画面。我自己特别喜欢的一个故事是在有声电影发明之前,没有人认为电影应该要有声音,但当音效、配音出来以后,所有电影都朝这个方向走。空间视频也是一样,平面的视频并不会消失,但是内容呈现的标准肯定是会越来越接近真实世界。
案山子:麦子之前做过一些工业方面的内容,那么基于您的开发经验,您认为Vision Pro对于这些行业应用的内容来说是不是一个迭代产品?或者说Vision Pro有哪些点很符合B端的需求?
麦子:因为我在做项目的同时经常也要扮演销售的角色,在过去的很多场合都需要把自己的一些理念传达给客户。在这个过程中我很希望有一台设备能够告诉他,我说的这些东西是真的能做到的,我讲的效率提升是真的可以实现的。在混合现实的融合上,苹果Vision Pro相较以前的设备是一个很大的提升。
当然我并没有觉得现在的Vision Pro已经完美或是非常好了,但是它有一种力量。你可以告诉客户我所说的方向、我所说的未来,它正在一步步地朝前走,并没有停滞,我没有在吹牛,而只是把未来五年或者十年后会发生的事提前告诉了你。苹果把这个产品做出来,证明了我所说的事情正在发生。——这是我体验Vision Pro以后的一个最大感受,会更有信心了,对自己判断的东西更加坚定。
图源:苹果
案山子:大家之前都深度地体验过Vision Pro之外的很多的VR产品,也都是很早就进入了这个行业。各位觉得Vision Pro跟其他产品最大的差异点在哪里?或者它目前的局限性在哪里?
麦子:我觉得现在目前最大的局限性是Vision Pro太私密了。我很难把我的体验用语言,或者其他方式很快速地让你也体验到。不像手机,我看到一个好玩的视频,马上拿给你看,或者把地址发给你,你就能看到,能跟我有同样的体验。但是在Vision Pro里,比如我有一个很赞的体验,想分享给你、让你有同样的感受,目前还是比较难的。
至于Vision Pro跟其他设备的差异。我觉得苹果在做的这件事情的时候,他们思考的维度跟其他过往的VR、MR、AR产品的思考角度是完全不一样的。Vision Pro是一个空间计算的设备,苹果不希望用户带上这个设备之后跟现实世界是隔离开的,以前的VR设备都是要进入虚拟的环境中去。苹果在发布会上就展示了用数码旋钮来调整沉浸度,包括EyeSight显示的这个看起来有点傻乎乎的眼睛,但我觉得这就是苹果不同于其他VR设备的思考。他们希望用户戴上这个设备以后跟别人以及真实世界依旧有联系、有交流。
另一个让我觉得比较惊艳的地方在于,戴上Vision Pro以后的眼动和手动追踪的交互体验,也就是UX(用户体验)的部分,在之前那些VR设备里我没有获得过这样的感受。我们之前做项目的时候,经常会拿很多种设备去给不同的人体验,在这个过程中,要让人迅速掌握一个VR设备的使用还是挺困难的。如果让一个完全没用过的人试Vision Pro,上手的过程相较于其他VR设备而言还是比较顺畅的,而且给人的体验感也比较好。
Nikk:我觉得Vision Pro的局限性现在有很多,比如App不能改变排列、位置特别乱,头显太沉、太大、戴着很不舒服,定价太贵,EyeSight显示的眼睛形象很奇怪……任何人要吐槽这个产品我都不会跟他们争论,因为这里说的每一个点基本上都是对的。就像很多人都吐槽Persona的形象很奇怪,但这是只用1分钟时间扫出来的建模,下一代的2.0、3.0……肯定会越来越清楚、变得更自然。虽然问题有很多,但是如果把Vision Pro看成一颗种子、一种概念,下一代产品肯定会做得更好,我相信各种问题很快都会解决。
金立涨:从API角度,我们刚拿到WWDC的开发教程视频的时候,就觉得苹果怎么这个API也没有、那个API也没有?然后我们去了开发者实验室,问了他们的培训员工,才知道出于隐私的原因,苹果没有开放原始的图像帧,那很多事情我们都做不了。比如ARKit原来的很多特性,也不是直接开放的,开发模式整个就变掉了。我感觉苹果在这方面可能有自己的想法,想重新定义一套流程。
比如对物体做渲染,原本可以拿到ARKit的原始数据去指定它的位置。现在变成了我们去摆一个东西,然后苹果根据物理世界的碰撞什么的,帮你把整个事件后续的机制都给更新了,对我们开发来说局限性会有点大。
近日,苹果在visionOS 1.1中对Persona功能进行了升级。(图源:苹果)
案山子:关于开发我有一个畅想。Vision Pro的共享空间,里面所有的运行模块都是独立存在的,如果同时打开两个APP,能否让它们之间产生交互?
金立涨:如果苹果想做,肯定是可以的。比如把整个世界定义成一个空间,两个App摆在一起,去遵循同一套物理碰撞原理的话,我觉得是可行的。
麦子:其实某种意义来说已经达到了,现在可以把文件或信息在两个App之间进行传递,比如把icloud里的东西下载到《Moon Player》里面去。
案山子:如果不只是传递信息,而是App之间相互影响呢?
Nikk:这个概念我觉得在技术方面应该没有限制的,以前我们可能没有考虑过,或者说没有这种需求。就像在手机里打开两个不同的App,不会同时去操作,也不会希望它们有任何相互的影响,最多就是通过分屏功能它们放在同一个画面里。未来进入空间计算时代,就会不一样了。
金立涨:iOS平台以前App之间是没办法共享数据的,苹果后来提出了一个Group的概念,比如都是同一家公司开发的App,在同一个Group上,那它们就可以共享数据。如果Vision Pro也遵循这个套路,允许同一个公司开发的App在空间里进行交互,可能会从这种方式先进行尝试。但如果是两个有不同的碰撞粒子效果的App,要做到数据打通甚至交互在技术上存在难度,因为在材质这些系统层面上就不一样。我倾向于苹果可能会先打通Group,因为只有开发者先适配好,才会有进一步的在两个App之间的预定性交互。App之间交互这个想法我觉得很好。
案山子:苹果对Vision Pro给出了包括窗口、空间体积、共享空间、全沉浸空间概念。各位从开发者的角度有没有去揣摩苹果设定这些概念的出发点?或者说这些概念给开发内容带来了怎样的影响?
金立涨:我觉得苹果是定义了各种行为适应的场景。比如看文档一般用窗口就足够,但它也不限制开发者去切换模式。比如我们看一张纸一样的菜单,想看看里面的菜烧出来是什么样的,这时候就能点一下去看3D的真实效果。苹果相当于从各个维度定义了你如何使用,通过这种方式来区分各种各样的功能性,从而达到更好的体验。如果菜单之类全都在全沉浸空间里,可能操作起来就会有一定的困扰性。之前在其他VR设备上并没有划分这么清晰明显的几个界限,当时我们刚看到这几个概念的时候也是一头雾水,但是用了以后就觉得还挺有道理的。
麦子:我看到开发者文档的时候,就觉得这个分类方法还蛮好的。比如我们在学几何的时候,肯定要先理解点、线,再理解面,知道坐标轴。苹果在设置这些概念的过程中,就相当于引入了XYZ轴,告诉你Vision Pro里所有的信息是可以分成窗口、空间体积这几种类型的。
我自己的理解,空间计算的意思是“空间计算器们”,后面要加一个s。什么意思呢?我们把一个窗口想象成一个iPad,这个iPad可以任意放大、缩小,还可以把它固定在任意一个我想要的位置上。而我有几十个这样的iPad,它们就是“空间计算器们”。当它们可以提供三维信息的交互位置的时候,这就是空间体积的概念。这是我对“空间计算”概念理解的一个方面,它跳脱出了以前我们对AR、VR的理解角度,因为这些信息一直是客观存在的,苹果用这种方式梳理好来告诉你如何去呈现。
窗口、空间体积与空间(图源:苹果)
案山子:接下来聊一聊交互。在Vision Pro现在的手眼协同交互方式下,各位在开发内容的时候,觉得直接手势、间接手势和手柄交互有哪些局限性和扩展性?
Nikk:我觉得要看应用的目标。就像玩《Beat Saber》会有大的动作、可以健身,用眼睛玩肯定不行。如果出发点是方便、效率,那用眼睛肯定是最好的。但有些应用就是“不要方便的”,像《Gorilla Tag》,它没有UI或Menu,就通过摆手同步在这个世界进行移动,目的是好玩而不是效率。
麦子:今天上午我也有几个朋友一起在这边体验Vision Pro,刚刚你的这个问题有点像我上午想到的。就是从有手柄交互的情况下,进入到纯靠手势交互的体验,它的区别我想类比成2007、2008年时候的触摸屏,大家还记得当时是有触控笔的,对吧?当然现在也有Apple Pencil,用笔交互肯定是更精准的,但乔布斯在介绍iPhone时说“我觉得手指是最好的输入设备”。一开始大家也是不习惯,会觉得用手指去操作是不是会按错。原来的Quest或HTC那些VR设备,它们的手柄和现在Vision Pro里的纯手眼交互,就有一点像当时过度的那种感觉。
当然就像刚才Nikk说的,还是要看场景和应用的类型的,像《Beat Saber》一定是有手柄玩更好的。再比如网球类游戏,一定要有一个设备或东西让你去抓握着,体验会好于没有的。但是在大多数场景,比如日常体验中去使用Vision Pro里面的一些App时,我觉得手眼追踪的交互是好于用手柄去指指点点的。
在Quest刚发布没多久、上了手势追踪SDK功能的时候,我们就用手追去做了一些工业和教育的培训。当用户可以用手直接抓起有一定重量设备的时候,这个感觉是非常好的。在往前几年、还没有6DoF的时候,我们用Leap Motion配合PICO G2去做过手势的操作培训。当时我就去做这样的尝试,原因在于我觉得直接用手是要好于手柄的,因为那件事情本身就没有手柄。当时做消防、电力培训的时候,大家都是用手柄去模拟的,但现实中是不可能拿手柄去灭火的,而是用手直接去抓灭火器,这是一个自然的过程。所以我觉得交互是分场景、分应用的,直接手势交互必须得有。
我在玩Vision Pro里的《割绳子》游戏的时候,就觉得如果只是将手追和眼追简单地类比成屏幕的触摸和划动,然后去玩这类游戏,这件事情有点像用大炮打蚊子。《割绳子》这类游戏就是应该用手在触摸屏上去操作的,开发者只是给Vision Pro做了移植,并没有真正考虑这款游戏在MR这个场景里应该去做怎么样的操作逻辑。
在接下来的过程中,我们需要大量优秀的产品经理重新基于空间计算设备去设计,跟现在看到的平面上的游戏体验完全不一样。未来最终的答案是什么,我还不知道。但肯定不会是把iPad上的游戏搬过来,用手追和眼追去取代划屏的手势动作或是手柄上的一些操作,这样的照搬一定不是未来游戏的方向,也不会有良好的游戏体验。
案山子:传统平台上已经有很多游戏类型,您觉得在Vision Pro这个新平台上会诞生出新的游戏类型吗?还是基于原有的游戏类型产生一些新的玩法?您觉得Vision Pro更适合什么类型的游戏?
金立涨:Vision Pro我们拿到手才几个月,目前也只是用现有的资源去做整合和探索的一个过程。比如我们有某款游戏,先迁移过去看看效果。如果要问有哪个赛道或哪种游戏能在上面成为爆款?最近我在关注F1比赛,如果Vision Pro能够与方向盘设备进行打通,我坐在椅子或沙发上,在真实世界中像开赛车一样地去开,这种场景落地就真的会利用到Vision Pro强大的算力和沉浸式的体验。因为传统赛车游戏就是对着屏幕,看到的终究还是二维的东西。
未来Vision Pro上游戏会是什么样的方式,坦白说要回答这个问题挺难的。可能还得大家慢慢去熟悉它的特性,有一些好的创意去落地、去探索,才能知道最终的答案。
《Cut the Rope 3》Vision Pro版(图源:ZeptoLab)
案山子:麦子和Nikk对Vision Pro的场景有什么样的看法?
麦子:现在如果有一个App,能够去分享我们拍的空间视频,它的呈现方式可以很简单,类似《TikTok》一样,我觉得这可能是我目前非常想要的一个应用或平台。因为现在我只能看到自己拍过的一些内容,但其实我也很想把拍摄的内容通过面对面以外的方式分享给其他人。空间视频是可以满足人性的窥探欲的,因为它的临场感很强。当我拍摄后上传到某个App,另外一个人刷到这个视频的时候,他就会很有代入感。App Store上现在有一些类似的应用,像《Spatial Station》,虽然社交化还没有做得很好,但基础的分享功能已经实现了。
Nikk:现在Vision Pro的应用里很少见到真正的社交,我觉得这是一种刚需。比如看F1之类的比赛,或是看电影,能跟其他同样戴头显的人一起处在同一个空间,同时看到一样的画面。
麦子:我能告诉你这个功能很快就要有了。因为我看到苹果的DEMO里是有相关代码的,只是代码还没有写完。他们应该已经有类似的框架,比如我创建一个频道,邀请你加入进来,然后我看到的画面你也能够看到,包括进度也是同步的,未来应该很快就可以实现。
案山子:好的,我们今天的圆桌环节就到此结束。接下来如果大家还有相关的问题,也可以线下一起来交流。