编译/VR陀螺
Meta发布全新开源应用《Spatial Lingo》,开发者可立即在Meta Horizon商店(仅限美国地区)体验该应用,并查阅面向全球开发者的开源项目代码了解其运作原理。《Spatial Lingo》运用Passthrough Camera API与多项AI技术,为开发者构建了实现这些功能的强大基础。
用户无需死记硬背词汇表,而是通过探索真实环境学习新词——日常可见的物体将被即时翻译并高亮显示,使学习过程直观而难忘。无论身处家中、办公室或户外,《Spatial Lingo》都能将周围环境转化为互动课堂。应用中的趣味3D伙伴“Golly Gosh”将全程引导学习体验,通过鼓励互动让学习摆脱枯燥感,化作一场探索之旅。

现实场景理解
通过透视摄像头API,Spatial Lingo能捕捉玩家物理空间中的环境信息。借助Unity推理引擎(即Sentis)运行的YOLOv9算法,应用可精准识别玩家周围的常见物体。
当物体被YOLO识别后,图像会被裁剪并发送至Llama API。该API通过Llama 4 Maverick对物体进行分析,基于具体物体获取精准的名词、形容词和动词。此功能通过突出显示用户眼前可见可触的物体,提供动态的个性化体验。
语言理解
Spatial Lingo默认通过Llama API调用Llama 4 Maverick模型,将检测到的物体名称翻译为西班牙语并在MR中呈现。开发者也可通过GitHub开源项目替换为自有模型及AI API进行翻译。
当玩家被提示发言时,应用通过语音SDK捕获并转录语音输入。转录文本随后发送至Llama 4 Maverick,该模型会精确检查玩家是否正确使用目标词汇,包括词形变化和基础句式结构。
“Golly Gosh”的对话同样由Llama 4 Maverick生成(同样通过Llama API访问),使角色能动态响应会话中的事件。文本响应生成后,Voice SDK将其转为语音,让Golly Gosh以鼓励且轻松的语气作出回应。

来源:Meta
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息