2024年9月11日,由VR陀螺联合CIOE中国光博会主办的「光聚未来•第五届中国AI+AR技术应用高峰论坛」在深圳国际会展中心顺利举办。
本次活动以“光聚未来”为主题,聚焦AI与AR技术融合发展,从底层核心技术、生产工艺、产品应用多维度展开深度探讨。来自京东方、JBD、芯明、谷东科技、鲲游光电、Eulitha、VR陀螺以及陀螺研究院的行业嘉宾为到场观众带来了精彩的分享,演讲内容干货满满。
其中,谷东科技 未来研究院院长 魏晟为与会来宾奉上了“从光学到AI:AR+AI技术如何重塑未来体验”的主题演讲。
以下为演讲实录(内容略有删减调整):
很荣幸今天可以有机会与大家分享谷东科技在AR+AI应用领域的探索与心得,我是谷东科技未来研究院负责人魏晟。
未来研究院是谷东科技旗下重要分支,专注于面向未来的UI/UX设计、AI/空间感知算法以及光学材料/光波导的设计加工制备。我们在杭州有一个光波导片生产基地,到明年产能预计将达到年产20万片。
在今年的AI市场中,AI眼镜备受瞩目,Meta Ray-Ban眼镜出货量已超百万。
从外观形态上看,目前市面上主流的AI眼镜交互功能由配方镜片、镜腿上内置的广角相机、麦克风提供,用户通过触控、语音、相机拍摄等实现与AI眼镜的交流。在我们看来,Meta Ray-Ban眼镜如此畅销的原因正是在于其集成了AI特别是AI大模型的能力。
从功能上看,AI眼镜主要提供两个功能,一是通过拍摄影像识别环境内容;二是通过语音文字转换记录环境声音信息,传输到云端大模型后通过语音播报形式将处理结果反馈到眼镜中,实现环境与大模型间的信息交互。
但当前的AI眼镜由于缺少显示模块,呈现出两大痛点:
一是视觉反馈不足问题。通过AI眼镜进行拍摄时由于缺少图像视觉反馈,很难直接确定拍摄图像的质量。我们认为显示模块应该成为眼镜标配,以帮助用户获取视觉反馈。
二是信息展示量不足问题。一图胜千言,当我们想用AI眼镜为用户展示一条复杂的数学公式时,如果是通过语音播报形式,对于眼镜和用户来说都过于麻烦,倒不如直接通过显示模块呈现出一张图片来得直接便捷。
在这些痛点的掣肘下,我们认为目前的AI眼镜形态只是最终形态前的一个过渡阶段。
而因为AR+AI的重要性,近年来谷东科技也在大模型领域B端、C端领域做了许多探索,其中就包括AI眼镜端侧模型的研究。如果我们可以把大模型直接集成到端侧,那么将大大降低AI眼镜的使用成本,当拥有足够的算力支撑时,眼镜可以在空间计算和AI上发挥强大的作用。
在我们尝试将大模型部署到眼镜端后发现,眼镜的算力一般无法很好支持预训练模型,常出现推理响应时间过长的情况。为此,我们自研了大模型压缩加速算法,通过对大模型进行裁剪量化,并在芯片上对NPU、APU做定向部署,最终验证了大模型在眼镜终端运行的可能性,大模型在一般应用场景下的问答效果进步明显。
通过实践,谷东科技近年来逐步积累出一些AI领域的经验。一是标准算法的构建,通过标准算法库,我们可以将图片、word、Excel、PPT等知识传达常见文件格式整合成文字向量,并存储在文本向量化里;
二是模型微调以及检索算法库的构建;
三是针对用户业务流程的智能体搭建工具链,不同的用户有不同的需求,这也带来了高昂的定制开发成本,这时一套标准化的工具就有助于客户在本地训练大模型,降低成本。
需要特别说明的是,根据客户的使用需求,标准化工具也有两种使用方法:
一是私有化部署,眼镜可以通过本地部署的私有化服务器调用智能体工具链管理工厂业务流程,例如ERP系统就可以直接接入大模型工具链。
二是边缘计算,这主要针对一些算力要求不高的使用场景,现在实验室完成对大模型的微调后,再将其发送到眼镜端,这里的眼镜类似于服务器,可以实现与工厂的对接管理。
同时,依托时序神经网络、卷积神经网络、机器视觉算法、大数据分析、视觉AI、语言AI等技术,谷东科技也提供了智能体构建API,方便用户调用模型及其他智能算法。
而在解决大模型问题的过程中,谷东科技也没有停止在AR光学领域的布局。未来AR眼镜的核心一定是光学。
目前,谷东科技已经可以提供了多种自研且量产的阵列光波导产品,同时公司还在探索全息光波导制造方向,这种方法通过激光产生干涉光栅,并直接与光刻胶反应,相较于阵列光波导的优势在于生产速度更快。
此外,谷东科技也提供自研的B端、C端整机产品,结合大模型后可应用于多种工艺领域。
例如在飞机维护检修场景,通过眼镜采集现场图片并上传至大模型服务器后,大模型可以分析需找设备缺陷,结合维修知识生成航空工卡,最终反馈到眼镜端,便于维修人员明确维修的具体步骤和方法。
而在C端场景,谷东科技眼镜产品已应用于教育领域,方便学生在日常佩戴过程中辅助学习,眼镜不仅可以理解教学的内容,还可以定制化知识总结,提高学习效率。
在AR+AI的浪潮下,预计未来1-3年,将有50%的眼镜会成为AI眼镜,其中60-70%的AI眼镜中会配备AR显示能力。AR眼镜还是AI的最佳载体。因此,我们也希望能通过行业的合作,继续推进AI、AR、MR眼镜在应用端的发展,让更多的眼镜产品得以走进普罗大众。
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
版权申明:本文为VR陀螺原创,任何第三方未经授权不得转载。如需转载请联系微信:vrtuoluo233 申请授权,并在转载时保留转载来源、作者以及原文链接信息,不得擅自更改内容,违规转载法律必究。文中有图片、视频素材来自互联网或无法核实出处,如涉及版权问题,请联系本网站协商处理。
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息