编译/VR陀螺
注:本文作者为畅销书《元宇宙》作者Matthew Ball(马修·鲍尔),今年6月20日,Matthew Ball与Meta CTO Andrew Bosworth(后称Boz)进行了一场深度对话。
对话内容涉及Meta的相关元宇宙战略:VR/MR年销量突破1亿所需条件、理想的头戴式设备规格、Reality Labs的支出分配情况、即将发布的AR眼镜的技术细节、AI对于元宇宙的作用等。
人物介绍:Boz于2006年加入Facebook,是公司的第十位工程师,随后参与构建最初的News Feed、Messenger、Groups以及许多早期的反滥用和基础设施系统,并负责管理广告和业务平台产品组。2017年,Boz担任Reality Labs的负责人,2022年担任Meta的首席技术官。
Boz,图源:网络
以下是采访原文:
马修·鲍尔:我想先从Meta对Reality Labs的愿景开始。Oculus VR于2014年被收购,收购价大约是两年前Instagram收购价的两倍。2018 年,Facebook董事会收到了一份关于发展虚拟现实的主题为“元宇宙”的备忘录。2020年,第一款Quest面世;2021年,公司更名为Meta。这些都是外界所知的事件。
从您的角度来看,尤其是您在2006年加入Facebook,2017年开始领导Reality Labs,到2022年担任Meta的首席技术官,我想知道在公司内部,有哪些重大事件改变了您或公司对元宇宙的看法、改变了对头戴式显示器时机的看法,并导致了对元宇宙如此大规模的公开押注?
Boz:在我真正参与之前,发生了几件事。最著名的是扎克伯格做了一个演示,他们有一个早期版本的Oculus Toybox,在这个VR体验中,他在玩一个小型拳击游戏,面前的桌面上有小人物。此时演示仍然用胶带粘在一起,这是Oculus时代的早期。
在演示结束时,扎克伯格将他的手柄放在桌子上,只是桌子是虚拟的,这些手柄自然会落在地上。他真的相信这是一个重要的未来平台,在这个平台上,你可以做 [无法通过其他方式完成的事情]。
当时我并没有真正参与其中,那时我还在Facebook其他部门工作。在面对每一次收购时,你都会与被收购团队一起制定一个目标图,以及公司希望实现的目标和时间表。回顾过去(即Oculus收购),我可以委婉地说他们有点乐观。他们对能力、成本、上市时间和采用率几乎全盘持乐观态度。我不知道这份文件是否被挖掘出来过——顺便说一句,我从未见过它——我只知道他们在每一个维度上都至少偏离了一个甚至多个数量级。
当我加入时,扎克伯格仍然非常相信这项技术,但我认为他需要独立评估。我是一个在新领域学习很快的人,我会给他一个独立的视角。
我加入进来不久,团队出现了分歧。当时,约翰·卡马克和不少人都全身心投入到VR一体机的研发中,他们希望压低价格,从而真正消除将昂贵的PC连接到头戴设备的需求。 而另一组人,实际上是最初的Oculus的领导团队,仍然致力于真正高端的外围设备 (即PCVR)。
发售于2019年的Oculus Rift S,图源:VR陀螺
坦白说,扎克伯格进入Oculus或Reality Labs并不是为了涉足外设业务。(PCVR)这种业务规模不足以引起像Facebook这种体量公司的兴趣。你会意识到,你在PC生态系统的战斗中必败无疑,你不仅会输给Steam,还会直接输给独立开发者。如果你只是连接到这台机器,那么这台机器就是你在那里获得的所有体验的锚点。
我甚至不需要从战略层面考虑,单从产品角度来看,我也认为我们必须开发独立设备。我们必须达到这样的境界:摆脱线缆束缚、摆脱昂贵的生态系统、摆脱设置繁琐等问题。
不过后来,我们同意让Oculus Rift再上一代,也就是我们与联想所合作的Rift S,但我们接手并打造了它。我们同时试用了Gear VR,我很确定它的性能不足,但我们想测试它,因为如果Gear VR已经足够好,那么就会有一条更具成本效益的途径将其推向主流。但事实并非如此。不过在我看来,它为Quest铺平了道路。
在我们发布Quest 1之前 [注:2019 年 5 月],当我们体验它时,就知道这是确信的路线。实际上在我们推出 Quest 1之前,我们也已经在筹备Quest 2 [注:Quest 2 于 2020 年 10 月推出]。我们差不多已经知道了我们希望拥有什么。所以我基本上认为我们的时代(或指Quest?)是最初的时代,这要归功于创始团队,他们从无到有创造了一些东西,并创造了足够好的体验,特别是他们开创的一些体验,比如《First Contact》和《Toybox》,非常精彩地讲述了VR这个媒介的故事。
随后,我们在这个时代正在努力应对生产成本、上市成本、消费者接受度、内容策略等现实问题,这将带你走上一条不同的道路,即走向独立头显之路。我想,在我的职业生涯结束时——我很幸运能拥有这样的职业生涯——我会非常怀念Quest 2的发布,后续每一年都能以更低的价格推出更好的产品,这真是一件特别的事情。这太疯狂了,尤其是在消费电子领域。
所以我认为这对我来说有点像是我们战略的揭示。这就是战略,这就是我们正在做的事情,这就是令人兴奋的事情:什么时候平台才能从根本上足够完整,可以真正地把一切都寄托在上面?而现在我们有了一个稳定的平台。
从某种意义上说,我们已经向Quest 1的开发人员承诺,我们将能够实现跨代连接,而答案就是Quest 3。所以实际上我认为第一个时代是这种与PC相连的时代,这非常重要,没有它,你就不会达到我们现在的水平。然后是构建独立平台时代,包括 Quest 1 和 Quest 2。
在我看来,随着Quest 3的推出,这一时代已经结束。Quest 3就像是一个平台。当然,你可以添加或不添加眼动追踪、你可以添加或不添加 AI 助手、你可以添加或删除所有这些功能。这些都是优化。但真正优秀的色彩混合现实功能是我们想到的最后一块缺失的拼图,顺便说一句,至少在我看来,它是让这个东西成为主流并解锁所有这些额外用例的关键组成部分。这就是我们现在所处的时代。
Quest 3发布后,它在势头、销售和采用方面都是积极的。现在,一旦您知道这是您的基础平台,大量的软件工作就会发生变化。以前,我们不要重新审视合成器,不要弄乱它,因为如果整个架构在下一代发生变化,那将是浪费工作。现在您从功能的角度知道了架构将会是什么样子,您可以真正开始合并和结合,并提高速度,例如您的软件速度会大大提高。所以我认为我们现在处于一个有趣的混合现实时代。我们每次都会重新命名团队。以前是 Oculus,那是VR,而现在是MR。现在我们对至少未来几代和下一组工作都有了非常清晰的愿景。这仍然很困难,但令人兴奋,我们确实感觉正处在一个新时代。
发布于2023年的Quest 3,图源:网络
马修·鲍尔:那么让我们来谈谈这个新时代。个人电脑每年的销量约为2.5亿台,峰值为3.5亿台。智能手机的峰值约为15亿台,现在约为12亿台。您认为,MR/VR头戴设备(非眼镜)实现年销量1亿台的最大障碍是什么?
Boz:嗯,可能有三个答案,但我们仍不清楚这三个答案的优先顺序。
其中之一肯定是内容。有些人会把它理解为游戏,我的意思是在设备上可以做的事情。我认为这个领域确实有一些超前的硬件,背后甚至可以追溯到90年代。最近的Magic Leap 2(市场表现)不是硬件问题——硬件可能存在一些问题——但这不是核心原因,只是缺乏生态系统和可以做的事情。
价格肯定也是其中一个答案。我认为这两个答案之间的关联程度是不同的。显然,价格越低,你需要增加的价值就越低,但人们也就越不重视它。价格越高,你需要增加的价值就越多。
最后一个是可访问性。这是一个有点含糊的术语,所以让我解释一下我的意思。从舒适度到重量、从晕动症到适应眼睛的宽窄、对头发或化妆、造型程度的影响、需要充电多少次以及充电频率、输入方法:它需要两只手吗?你能用一只手吗?你能不用手吗?所有这些都限制了它可以在多少地方使用、使用频率和人数。当然,它们肯定会与成本进行权衡。其中一些是价值。如果你降低光学清晰度,你可以减轻重量,但现在你有一个价值问题。所以这些东西的权衡空间很小。
我们在所有这些方面都取得了进展,但这需要真正的创新。你之前提到了Meta在这方面投入成本,当然我会更倾向于“投资”一词,新技术并不是一出现就准备好投入使用的。供应链必须建立,制造业必须建立,技术本身必须开发,这意味着在你找到第11条可行的道路之前,你必须为你走过的10条错误的道路付出代价。我们显然相信这项投资,我认为它将达到我们所说的数字,即数亿人可以接触到这些技术,并在个人和专业方面使用这些技术。尽管我有信心我对产品和平台的未来发展有一个清晰的愿景,但仍有许多工作要做。
发布于2022年的Quest Pro,图源:网络
马修·鲍尔:您目前领导Reality Labs已有7年。当再过7年,甚至10年,当您提到HMD时,您会想到什么?我说的是电池寿命、分辨率、帧速率、重量,所有这些。您本能地想到的是什么?
Boz:我们在Reality Labs研究中做的一件有趣的事情就是建造这些时间机器,如探索将分辨率最大化会怎么样?将分辨率调到绝对的100%,而忽略其他一切。这些装置看起来令人难以置信,但你会获得体验,并对它有很好的感觉。所以当你有这些小型的时间机器,可以实现视野、分辨率、颜色、深度、色域、高动态范围、亮度等(极限)。我们在做这些体验时总是在寻找参数化,让它们能稳定体验。你只是在寻找曲线和曲线的形状。那条曲线上有一个拐点吗?价值函数是否有一个开始稳定的地方?这并不是说它不会继续,也不是说人们无法继续观察到改进,而是它对功能性来说变得不那么重要了。
所以当我展望未来七年时,这可能是我能可靠地瞥见的最远的未来,我们考虑的是每度像素数PPD。你真的希望达到至少45像素,这时文本效果会非常好。60像素可能是视网膜分辨率的一半,但实际上你无法分辨,原因我就不多说了。因此,你确实希望PPD达到50至60。超过40像素后,效果就已经变得很好了。我们已经看到Varjo、Apple等公司做到了这一点,你也看到了今天要获得这样的分辨率需要付出的代价。在视野、亮度和其他一些方面,你会牺牲一些东西。这些都是真正的付出。
因此,你想要到达那个目标,就必须有一个合适的视野。如果你的视野比Quest 3小得多,你就会开始注意到这一点。你眼睛里的细胞可以检测到垂直方向的运动变化,因此,你需要有较宽的视场角,这样你就不会一直注意到它的边缘。实际上,我认为对于沉浸感来说,较高的视野比较宽的视野更重要。当然,就信息密度而言,更宽的视野对我们人类来说更为重要,因为我们的眼睛确实能看到更多水平方向的信息。但垂直视角是一种很好的方式,它可以以一种有点欺骗性的方式让你相信沉浸在一个空间中。
Magic Leap 2 FoV,图源:网络
当然,你需要有计算能力来运行所有这些东西。在我看来,从散热角度来看,设备必须是独立的,没有电线 [注:苹果的Vision Pro有一个类似于起搏器的外部有线电池]。我不想让人看到我添加了一堆东西。我并不是说它没有用处。你当然可以想象工业应用。顺便说一下,PC VR一大笑话在于,我们现在实际上已经制造了最好的最受欢迎的PC VR(Quest 3)。你只需将电线或使用Air Link将其连接到电脑端。
对我来说,我确实认为舒适度是其中非常重要的一部分。你希望看到(设备的)重量降低,这不仅仅是克数,这不是最重要的:设备如何在头上保持平衡,光学堆栈离眼睛有多近,平衡点位于鼻子边缘到设备边缘之间,它决定着脸颊的舒适度,前额的压力大小取决于你使用哪种表带等。
因此,你可以将头显的堆叠稍微向内移动,这是从Quest 3到Quest 2的重大转变之一,距离向内移动了相当多,因此用户在执行这些操作时会感觉更舒适。因此,我希望到那时设备重量能减轻1到200克。
我认为音频效果也会变得很好。你会得到越来越棒的立体声音频。当设备使用外扬时,你能做的事情会受到一些限制,用户也可以选择有线耳机。我们可以随着时间的推移为人们提供更多选择。我们今天在耳机插孔方面就是这么做的。
帧率。我们已经采用了感觉十分不错的120 Hz。但显然,在PC游戏中使用240 Hz或更高频率的玩家不会同意,他们喜欢那种如丝般顺滑的感觉,我尊重这一点。(但后续采用120Hz是保持产品平衡的一大代价)。例如,视场角面临的挑战之一是,视场角边缘的像素要比视场角中心的像素多四倍。而这些像素对你的价值远远低于四倍。它们是相对不重要的像素。因此,如果你在价值明显较低的像素上花费了更多,这很难证明是合理的。
我对帧速率也有类似的看法,我并不是说240 Hz不比120 Hz好,就像我认为60 PPD之于40 PPD一样,但是在有限的计算预算内,我们看不到这方面的代际巨大改进。我们需要更多策略,因此,我认为注视点渲染技术对于解锁提高分辨率的能力具有真正的希望。我们能否想象这样一个世界:显示器能够实现更高的帧速率,但您在系统的其他地方做出了牺牲,如您无法进行多任务处理,我可以想象这些事情,尤其是对于工业用例。不过,这在很大程度上取决于面板。再说一次,我认为我们不会为此进行优化。
顺便说一句,关于120 Hz的有趣故事,这是如今一个很受欢迎的功能。当时我们还没解锁120 Hz,(当时是90 Hz),我们的一位工程师发现屏幕面板其实支持120 Hz,约翰·卡马克对此非常愤怒。如果设备支持该功能,我们应该为需要该功能的消费者解锁。我们做到了,而它现在非常受欢迎。
所以,有些故事很传奇,你为某种规格和某种功率而制造设备,但我们确实希望让消费者有机会、有能力选择如何使用这些功率。我们将继续在这些系统中加入更多灵活性。我真的希望七年后的情况是,你有更多的头显可供选择,而这些头显都能运行适应你使用情况的生态系统。
如果你是一名游戏玩家,并且习惯使用240 Hz的华硕ROG显示器,那么,有没有一款可以为你提供这种体验的同等头显呢?虽然这样做会牺牲一些其他方面,但这是一个你应该能够做出的选择。因为七年后,我们仍无法摆脱重量、成本和性能等基本权衡。实际上,这三者只能选一个,甚至不能选两个。
约翰·卡马克在Oculus,图源:网络
马修·鲍尔:苹果最近宣布,他们将向开发者开放Vision Pro的透视相机数据,但仅限于由企业账户管理的设备和通过该企业内部系统分发的应用程序。Meta对此有何看法?是否有这类计划?您如何考虑安全性和功能之间的权衡?
Boz:好吧,我当然希望人们尊重并欣赏我们在隐私方面的立场,这一点比苹果更甚。我认为我们不应该忘记,我们已经确立了这一地位,而苹果从市场角度来看正在削弱这一地位。当然,这是玩笑。
严肃的回答是,如果开发人员可以直接访问相机,我们都可以想象出非常有用的用例。你是一名机械师,你正在看一个你不熟悉的引擎,开发人员可以构建各种工具来帮助你查看覆盖图、查看示意图,甚至诊断问题,但Meta永远不会做到这一点,在开发人员没有能力的情况下[做到这一点]……开发人员不能[预先]上传我们可能看到的所有图像配置,让我们围绕这些配置建立分类器,这也是不可信的......[那么]如果你不[自己]建立这种能力,这种用例就会得不到充分的服务。
同时,由于这项技术在世界上还很新,我们也希望确保人们、旁观者感到舒适。如果有人选择在飞机上佩戴头显,他们就会明白这对他们意味着什么。现在,我们正在寻找越来越多的技术来解决这个问题。有多种方式可以向旁观者发出信号。我前面开了个关于苹果的小玩笑,但我认为,Apple Vision Pro的出现对我们整个行业都很棒,现在人们对这些设备具有了更多了解,我认为,人们对它的了解越多,旁观者感到恐惧或戴上它时感到不舒服的恐惧就越少,因为有些人担心别人会对它产生负面反应,或者他们会对它感到惊讶。
所以我认为,我们总是以自己的方式看待我们行业中的技术,这并不公平。技术存在于社会背景中,社会对技术的适应程度越高,你就越能自由地执行。社会对技术的适应程度越低,你将技术推向市场时就越需要谨慎。因为如果你不小心,你实际上可能会阻碍它随着时间的推移而被采用。所以我认为我们在这方面采取了相当保守的立场。我想每个人都可能理解我们为什么采取这种保守的立场。我坚持认为这是当时正确的做法。但当然,与此同时,我们对混合现实的潜在应用感到兴奋,如果开发人员得到了消费者的完全同意,并且了解使用它的人的背景,那么我们就可以解锁该功能。所以我们将继续关注我们如何看待消费者的舒适度,以及这项技术的发展以及它释放了什么样的力量。
Vision Pro,图源:网络
马修·鲍尔:苹果的另一大赌注是EyeSight(Vision Pro的外置显示屏,旨在实时显示用户眼睛画面),这或许反映了苹果的内部文化,或者试图解决您之前提到的技术污名。这对设备的成本、重量、电池消耗以及设备上的所有方面都有很大的影响。您认为这些权衡值得吗?您喜欢这个功能吗?
Boz:其实我们非常确定这是我们发明的。我的团队很早的时候曾在华盛顿州雷德蒙德的Reality Labs Research的一次会议上向公众展示了一个演示,而我们在Connect大会也谈到了它,并做了一个演示。所以这其实是我们玩了一段时间的东西,但苹果率先推出了。对我来说,它成本、重量和价值之间的权衡真的不存在。在我看来,它甚至没有给人们带来很好的视觉体验。我本周在AWE上其实看到了一些更好的产品,我认为我们的产品实际上也很好,面板分辨率更高,不过也更昂贵。
我认为,对于消费者来说,这不是一项好的成本效益交易,即使对于使用该设备让人们感到舒适的消费者也是如此。我不认为使用该设备的人会因为Eyesight而感觉与人交谈时感觉会更好。不过我并不讨厌它,我认为,市场上有一系列做出不同选择和不同权衡的设备,看看人们对此有何反应,这很好。对于我们来说,我们投入了大量的金钱和时间来尝试让这款产品价格实惠、而且易于获得,不仅在成本方面,而且在重量和舒适度方面也是如此。这是一项艰难的交易。
万有引力反向透视解决方案,图源:万有引力
马修·鲍尔:我想谈谈更难的技术,您曾和Meta的AR眼镜硬件主管说过,真正的光学AR眼镜要想成为主流,需要四种、六种,甚至七种不同的NTI。您能解释一下什么是NTI以及您认为实现这一愿景需要哪些NTI吗?
Boz: NTI是一项新技术计划,这是行业术语。如果您是产品团队,硬件产品团队,那么就会有之前已成功集成的技术。您可以将其从供应链中移除,也可以继续采用。这会带来很多便利和 [已知] 参数。您可以进行实时测试,也可以进行构建。而新技术只会给项目增加风险(如果你引入它)。您不知道它是否会起作用、您不知道功率特性是否正确、性能是否正确,因此 [这些技术] 会增加风险。
随着深入研究,你会发现NTI确实有很多不同的类型。有些NTI就像是,嘿,这是一项现有的技术,但它从未出现在这个特定领域,也有些技术就像是第一代技术。但NTI一直在不断深入,直到所谓的高级开发,这已经超出了研究范围。
我们有一个概念验证,我们知道它可以做到,但它从未被产品化、小型化、以低成本、高效地完成。有时你在实验室里做了这件事,你会想“太好了,我们做到了。”但,这就像是你用一百瓦做了这件事,花了一千美元,而实际上我需要你用一百毫瓦做这件事,只花10美元。
因此,在成为NTI之前,有一个高级开发阶段。当然,在此之前,是研究阶段。从CK(Caitlin Kalinowski,Meta AR硬件主管)这样的人的角度来看,它们都是NTI,因为她从事的是产品集成方面的工作。
对于我们来说,当考虑AR显示器时,您必须生成光子,并且必须在非常非常小的空间内生成光子。如果您考虑的是消费级眼镜,那这就是您拥有的全部空间。你必须非常高效地产生光线,因为你没有太大的电池。你必须能够非常明亮地产生光线,因为当你走动时,外部世界的对比度可能为一百万比一,这取决于你所在的位置和阳光等,至少是一万比一。所以你需要能够在合适的地方用亮度压倒日光。此外,您必须具有热效率,因为即使你实现了所有这些事情,但它会积聚大量热量,这也是不行的,因为设备就戴在脸上。因此,这对我们来说是巨大的挑战。你可以想象有很多不同的系统可以做到这一点。
我们在Micro-LED方面已经投资了很长时间,不过里面有些事情很棘手,比如红色波长、尤其是真正的红光,但即使是偏红光也很难产生。为什么呢?因为红光的波长很长,而产生这种波长的空间非常小。因此,你实际上是在试图制造亚微米级的镜面结构,让光在发射前就能形成并足够长。然后,你需要以非常非常集中的方式发出准直光。它不能到处乱射,因为那样效率不高。所以,一旦你有了这个光源,你就需要把它做成各种颜色。当然,效率特性也不尽相同,所以你必须能够制造出来。为此,我们正在使用电子扫描显微镜,用原子拖动材料表面,然后测量原子的位移,绘制出三维地图。
三色Micro-LED效率对比,图源:网络
当搞定前面这一切,你又该如何让一堆东西排成一排,然后给它们供电?所以这是对研究的研究。做这件事本身就是研究,然后制造这件事是一个完全渐进的研究计划。好吧,假设你有这个光源,你需要将它耦合到某种东西上,把光发送到你的眼睛,但你的眼睛是一个镜头,所以你不能只让它在一个点上打到你的眼睛。你必须做所谓的瞳孔复制。这样光线就需要同时在很多地方打到你的眼睛,然后重新聚焦成视网膜上的一个图像。顺便说一下,瞳孔复制从效率的角度来看真的很糟糕,因为如果你有一个1000分钟的东西,但根据光学扩展量定律,你必须做10倍的复制,你的效率就会降低1/10,因为每个像素、每个光子都需要走10条路径中的一条。
这些复杂的波导设计,有很多不同的方法,而它们都使用了光的内部全反射原理。当光线以足够低的角度照射到材料上时,就会在路径上反射出100%的能量,这就是光纤的工作原理,这些都是通过内部全反射原理实现的,所以你需要一种折射率非常高的材料,两种材料的折射率之差决定了反射的程度。折射率越高的材料,不仅能更有效地利用你产生的光线,而且对于瞳孔复制、热成像等都非常重要,同时还可能获得更宽的视野。
关于波导片,你可以使用玻璃,可以使用铌酸锂,可以使用碳化硅,也可以使用新型材料。我们现在有一个完整的材料研究团队,试图开发出高折射率材料,材料科学是其中很大的一部分。但即使有了材料,还得设计波导,而波导有很多不同的样式。你可以做表面浮雕光栅,可以做体布拉格光栅,可以做全息光栅,可以做光电光栅...... 我们的产品种类繁多,它们的优缺点也各不相同。有些容易制造,有些比较困难。因此,这里面的难度是非常大的,仅就这些小型组件而言,要实现高质量的光学穿透,就需要进行大量的研究。
那么,是什么控制了分辨率呢?其中之一就是像素间距。现在你有了Micro-LED而它们的像素已经达到两微米了,但你还需要把它们缩小一半,里面的难度不止一倍,这是一百倍的挑战。我们甚至不知道这件事的上限。我认为需要花一辈子的时间研究才能继续解决这个问题。不管怎样,我们确实觉得我们处在一个很酷的节点上,这在10年或15年前根本不可能实现,我们没有路。而我们现在看到了一条路。我们内部有一套AR眼镜,但它仍是一种研究工具,一种产品开发工具,为了做到这一点,我们必须去掉一个关键的方程式,那就是成本。
是的,你必须做好所有这些事情,然后想办法以消费者能够承受的价格做到这一点。我们正在取得巨大进步。很酷的是,作为一个行业,我们实际上都在采取非常不同的方法。苹果采用DLP,谷歌采用Raxium [该企业于2022年被谷歌收购] 和量子点,我们正在研究Micro-LED。因此,行业中有很多并行路径,有很多不同的方法,这令人兴奋。因为你会发现这增加了在某个时候我们将拥有一个相当不错且希望具有成本效益的工作版本的可能性。
我甚至没有深入研究空间音频、运行图形管道所需的定制芯片、高效完成这一切所需的无线连接等问题。如果你认为点亮一个像素很昂贵,那么尝试通过无线电发送一个像素,那就更加昂贵了。所有这些令人难以置信的昂贵东西都需要装进这个小巧的封装中。这真的令人兴奋。但这可能是我们行业在我有生之年以及我这一代面临的最大挑战,但它确实如你想象的那样令人兴奋,也同样困难。
发布于2020年的Meta智能眼镜Project Aria,图源:网络
马修·鲍尔:自2019年以来,Reality Labs已花费约650亿美元。累计会计损失约为550亿美元。您能否介绍一下里面的投入分配情况?有多少是我们还没有机会接触的产品,其中有多少用于分配给五年或十年后的项目?
Boz:我可能无法给你更详细的细节。我能告诉你的是,在如何分配[投资资金]方面,我长期以来一直遵循一个相当普遍的原则,那就是我总是希望以投资组合为基础进行投资。
你想要有一些概念,那就简单分为一半一半吧,你想要把你的精力投入到那些现在正在创造真正价值、对你有形的东西上。人们忘记了我们在这段时间内所做的投资中包括内容之类的东西。内容是你所做的投资。无论是收购《Beat Saber》团队的Beat games那样才华横溢的团队,还是将你自己的第二方生态系统带入游戏,给他们早期访问权,以换取他们开发新功能。或者只是给第三方开发者一些钱,让他们带来他们的作品,并确保他们对自己的努力将获得的回报有足够的信心。
这就是其中的一部分,你对平台内容的投资从长远来看是非常值得的。你试图引导一个双向的生态系统。这是我们公司最终的产品。最终的产品实际上不是一件硬件或一项技术,而是一个生态系统,一个双向的生态系统,每个人都在为之做出贡献,而你在其中占有一席之地,你能够将消费者和开发者这两个方面连接在一起。
如果你将过多的投资组合投入到未来产品中,你很快就会偏离消费者真正想要的东西、他们看重的东西、什么是真实的。你可以给自己讲一个故事,我想你最终会发现,这其实相当冒险。所以如果你至少有一半的精力投入到相对更有形的东西中。这并不意味着它们现在就在市场上。它们甚至可能还要几年才会上市。只是这些是基于对价值的真正有形理解。
现在,如果你有一个非常成熟的产品,你的投资组合可能超过 50%,可能是 80%,接近目前的工作。也许你有一个增量部分,在一个小型的、非常面向未来的投资组合中。那不是我们。我们显然非常注重长期未来。你提到的这些数字听起来都很大,当然对外行人来说是这样。如果你看看包括我们在内的公司在人工智能方面的投资,他们愿意做多少投资来达到像iPhone或甚至像Android那样的地位。我认为Android是一个很好的例子,它被低估了。有人认为Android并非谷歌收费的东西,所以它的价值为零,但恰恰相反,Android对Google的价值是巨大的,因为它赋予了Google巨大的地位,他们能够在那里使用大量信息,并且能够通过其他渠道为消费者提供大量服务。因此,这对Google来说具有巨大的价值。
从他们每年为在Android上的地位向Apple支付的费用中,你可以看出这种价值有多么巨大。那么,这个数字是多少?每年200亿美元,或类似的数字。所以当你看到这些数字时,你会问,为了能够掌控自己的命运,你愿意付出多少钱?我认为我们在这方面的支出完全在我们的能力范围之内,我认为我们做得很好。
Meta VR/AR原型设备,图源:Meta
马修·鲍尔: 我的最后一组问题与人工智能有关。我很想了解过去两年人工智能的进步如何改变了您的路线图?人工智能在元宇宙中扮演什么角色?假如你现在作为消费者、爱好者或开发者,是什么让您对人工智能感到兴奋?
Boz:人工智能的发展对我们来说真的是一件令人欣喜的事。这是我们长期投资的领域。我想你知道,直到最近,基础人工智能研究团队才向我汇报,我非常享受与该团队一起工作。
你可以想象,我仍然与公司在该领域的工作密切相关。上一个回答中,我谈到了我们在开发AR技术时遇到的所有巨大阻力,我们正在取得良好进展,但进展艰难。AI是一股清新的空气,它比预期的要快得多,比预期的更有用,它有一套真正切实可行的工具来改善我们尚未解决的一些最困难的问题。
当你戴着AR头显四处走动时,你如何与设备互动?你需要设备拥有一些常识,这可能是最好的形容词。它需要理解一些事情。类似于自动驾驶,事实证明,自动驾驶车辆在交通中遇到的随机情况数量如此之多,如此之大,长尾如此之长,以至于当你试图死记硬背时,你几乎无法到达那里。所以对于我们头显来说,我们的架构图中一直有一个概念,我们有时称之为指挥。这个Agent可以感知你的注意力和意图,了解你想要完成的事情并帮助你。
如果我面前有一段文字,你走过来跟我说话,AI会自动知道,嘿,我们应该移动一下,这样你就可以与这个人进行非常强烈的目光接触,这就是你要做的。
当你走开时,我们可以把它带回来,让那种感觉变得神奇。假设我们会用启发式方法来实现这一点,并尽最大努力开发一个模型。我们有一个以数据为中心的伟大数据集,我们用我们的Project Aria研究工具开发了eco 4D数据集,试图获得一个数据集,这是一种非常自动驾驶的方法。我们可以很好地达到80%,还有20%是消费者必须自己干预的,我们会试着随着时间的推移不断学习。
在MR中,你会想到Horizon,基于AI为这个巨大的由用户生成的世界构建结构。你前面提到Facebook董事会的一份“Metaverse”备忘录,这份文件是由杰森·鲁宾 (Jason Rubin) 写的,我想我是第一个读它的人。我觉得这是一份开创性的文件,尽管当时所有这些想法都有点混乱,它们四处飘荡,还没有形成一个有凝聚力、连贯的结构,但他做到了这点。
我们对此一直有很高的要求:任何人都可以建造一些东西,但没有人能建造出任何好的东西。这是我们在过去两年的Horizon开发中一直在纠正的错误,并取得了巨大的成功。现在,AI彻底改变了它,如果你有能力用简单的语言来描述一个场景,并进行迭代,这样你就可以边走边编辑场景,这是当今大型记录模型的一大优势。
尽管我们还不能在3D中做到这一点,更不用说在4D中随着时间推移制作动画了,但我们正在进行这项研究,我们有一个团队在做这件事,我们正在取得进展。这是一种非常令人兴奋的方式。它可以降低人们的准入门槛,让他们去创造一个足以让他们引以为豪的空间,去邀请别人来参观,或者说,这个空间足够让他们接受,以至于他们会经常使用,因为这个空间给他们的感觉真的非常好。
对我来说,人工智能正以超光速的速度推动我们一直以来的一系列概念。我们一直想实现这个目标,在这之前是一个漫长、缓慢、线性的过程,而突然间,我们看到了实现目标的途径,比我们想象的要快得多。所以这是了不起的。
对于我们路线图,AI当然也会影响硬件。Ray-Ban Meta比初代Ray-Ban Stories有了显著的改进,里面除了硬件改进外,还有AI,尤其是多模态AI,真正揭示了一台设备,(即使是没有屏幕的设备)能发挥的更深层价值。所以现在我们显然对这些产品充满信心。我们制造了它们,我们销售它们,我们对它们感到兴奋,我们一直认为,这是让人们熟悉这种设备的良好垫脚石。
发布于2023年的Ray-Ban Meta,图源:网络
我认为它们会比我们想象的更有用。我认为我们实际上已经建立了......这种情况发生的频率有多高?你制造了一个消费电子设备,有一个强大的用例,可以推动销售,而你在最终确定硬件时甚至没有想到过。这永远不会发生,伙计。那是天赐之物。这就是人工智能为我们代表的东西。从个人角度来看,我认为我们作为一个行业尚未解决的大问题之一,但我们都对此感到兴奋,那就是个性化人工智能。
今天我们通过作弊的方式似乎做到了这一点,如预先加载一些信息到上下文窗口,但这样做成本高昂且速度慢,而且上下文窗口很紧,如果你用这些信息填充它们,那么它们的记忆就会变短。即使你放进去的所有东西都不够,我认为我们还没有达到那个水平,这有很多原因,但我们都在朝着同一个方向努力。
我认为个性化的人工智能可以根据我个人的经历和沟通进行了微调,以保护隐私和我们使用数据的方式,我认为这是一件非常令人兴奋的事情。我认为,这种能力对我来说非常有用,而不是一般有用,这将是一个巨大的飞跃。