推动空间计算与头显技术发展的三项AI研究发布

5月1日，科技媒体报道，苹果公司近期发布了三项新研究，继续推动空间计算和Vision Pro头显技术的发展。

据4月的媒体报道，苹果内部暂停了新款Vision Pro的研发，团队的重点转向了智能眼镜及相关技术。

然而，最新发布的研究论文表明，苹果并未放弃Vision Pro项目。这三项研究涉及多模态大模型的空间推理评测、美式手语视频标注以及3D头部重建等领域。

其中，最显著的研究成果是苹果在其机器学习博客上发布的论文《From What They Are to What They Do: Benchmarking Spatial-Functional Intelligence for Multi-Modal LLMs》。该论文介绍了SFI-Bench基准，旨在评估多模态大模型的空间理解能力，重点关注其在理解物体功能方面的表现。

原文提到，该基准包含134段室内视频，并整理出1555条专家标注的问题。

SFI-Bench不仅询问模型“这是什么、在哪里”，还会进一步询问“它如何使用、故障如何处理”。例如，模型需要从柜子中找到同品牌的一组瓶子，理解如何取消洗衣机的当前程序，或判断电视遥控器的功能。这种方法更贴近日常家庭场景，也与未来空间助手需要处理的真实任务相符合。

测试结果显示，Google的Gemini 3.1 Pro获得了最高分，OpenAI的GPT-5.4-High位列第二，Gemini-3.1-Flash-Lite排名第三。

然而，论文也指出了一个共同的短板：几乎所有模型在“带条件的全局计数”方面表现不佳，且在空间记忆和功能知识整合方面存在明显限制。

手语相关论文《BootsTrap PING Sign Language Annotations with Sign Language Models》尝试利用AI自动生成标注，以减少数百小时的人工标注工作。

原文提到，团队建立了近500条人工英文词汇与术语的标注，并扩展至超过300小时的ASL STE Wiki和7.5小时的FLEURS-ASL数据。其手指拼写模型在FSBOA上达到了6.7%的CER，在ASL Citizen数据集上达到了74%的top-1准确率。

第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction》专注于3D头像重建。

苹果提出了HeadsUp方法，能够从大规模多摄像头集中重建高质量的3D Gaussian头部模型。测试使用了超过10000名受试者的内部数据集，其规模比现有的多视角数据集高出一个数量级。这可能与Vision Pro的Persona或visionOS中更自然的人脸捕捉与表情渲染有关。

苹果公司全球营销副总裁格雷格·乔斯维亚克曾表示，Vision Pro展现了未来世界与物理世界融合的必然性。被问及具体时间表时，他坦言无法预测“空间计算”何时能成为主流，但坚信这一方向是不可逆转的。

免费v2ray密钥

近期文章

互联网资讯 · 2026年5月12日 0

推动空间计算与头显技术发展的三项AI研究发布

You may also like...

发表评论取消回复

互联网资讯 · 2026年5月12日 0

You may also like...

中国电信发布5G云套餐 实现云服务普及

B站付费视频致使up主粉丝减少一万

华为Mate30系列5G版：世界互联网大会直播首选

发表评论 取消回复

中国电信发布5G云套餐实现云服务普及

发表评论取消回复