互联网资讯 · 2026年5月12日 0

推动空间计算与头显技术发展的三项AI研究发布

5月1日,科技媒体报道,苹果公司近期发布了三项新研究,继续推动空间计算和Vision Pro头显技术的发展。

据4月的媒体报道,苹果内部暂停了新款Vision Pro的研发,团队的重点转向了智能眼镜及相关技术。

然而,最新发布的研究论文表明,苹果并未放弃Vision Pro项目。这三项研究涉及多模态大模型的空间推理评测、美式手语视频标注以及3D头部重建等领域。

其中,最显著的研究成果是苹果在其机器学习博客上发布的论文《From What They Are to What They Do: Benchmarking Spatial-Functional Intelligence for Multi-Modal LLMs》。该论文介绍了SFI-Bench基准,旨在评估多模态大模型的空间理解能力,重点关注其在理解物体功能方面的表现。

原文提到,该基准包含134段室内视频,并整理出1555条专家标注的问题。

SFI-Bench不仅询问模型“这是什么、在哪里”,还会进一步询问“它如何使用、故障如何处理”。例如,模型需要从柜子中找到同品牌的一组瓶子,理解如何取消洗衣机的当前程序,或判断电视遥控器的功能。这种方法更贴近日常家庭场景,也与未来空间助手需要处理的真实任务相符合。

测试结果显示,Google的Gemini 3.1 Pro获得了最高分,OpenAI的GPT-5.4-High位列第二,Gemini-3.1-Flash-Lite排名第三。

然而,论文也指出了一个共同的短板:几乎所有模型在“带条件的全局计数”方面表现不佳,且在空间记忆和功能知识整合方面存在明显限制。

手语相关论文《BootsTrap PING Sign Language Annotations with Sign Language Models》尝试利用AI自动生成标注,以减少数百小时的人工标注工作。

原文提到,团队建立了近500条人工英文词汇与术语的标注,并扩展至超过300小时的ASL STE Wiki和7.5小时的FLEURS-ASL数据。其手指拼写模型在FSBOA上达到了6.7%的CER,在ASL Citizen数据集上达到了74%的top-1准确率。

第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction》专注于3D头像重建。

苹果提出了HeadsUp方法,能够从大规模多摄像头集中重建高质量的3D Gaussian头部模型。测试使用了超过10000名受试者的内部数据集,其规模比现有的多视角数据集高出一个数量级。这可能与Vision Pro的Persona或visionOS中更自然的人脸捕捉与表情渲染有关。

苹果公司全球营销副总裁格雷格·乔斯维亚克曾表示,Vision Pro展现了未来世界与物理世界融合的必然性。被问及具体时间表时,他坦言无法预测“空间计算”何时能成为主流,但坚信这一方向是不可逆转的。