互联网资讯 · 2026年4月22日 0

多模态智能体大模型发布,测试显示94%任务完成率

2026年4日——商汤绝影发布了端侧多模态智能体大模型Sage。Sage采用MoE架构,总参数量达到32B,激活参数仅为3B,成为行业内首款在车端实现复杂智能体能力的大模型。根据PinchBench的测试结果,Sage在全球一线云端大模型中表现出色,已在英伟达O基于X平台实现了部署。

在当前的AI时代,汽车的复杂智能体能力往往依赖于云端,而端侧模型由于计算能力和参数限制,仅能实现简单指令的响应。端侧智能体面临诸多挑战,云端依赖带来延迟和高成本,而坚守端侧又缺乏真正的智能体能力。Sage的发布打破了这一格局,首次将云端级智能体能力落地到端侧。

作为端侧智能体基础,Sage可以接入OpenClaw、HeRMes等主流Agent框架,提供更多端侧智能体的核心支撑,覆盖出行、家庭等全场景应用。

Sage在公测Agent评测基准PinchBench中的最佳任务完成率达到94%,超越了Claude-OpUS-4.6(93.3%)、Claude-Sonnet-4.6(88.0%)、GPT-5.4(90.5%)等多款国际主流大模型。

商汤绝影发布端侧多模态智能体基座大模型Sage,PinchBench实测94%最佳任务完成率
商汤绝影发布端侧多模态智能体基座大模型Sage,PinchBench实测94%最佳任务完成率

Sage以3B的激活小参数,超越了许多大参数的云端旗舰,颠覆了“只有大模型才能做好智能体任务”的传统认知,展现出端侧技术的高效优势。以小米MiMo-v2-Pro为例,其激活参数为42B,总参数规模超1T,而Sage的激活参数仅3B,所需计算能力仅为其1/14,显存占用约为其1/3,但在PinchBench的最佳任务完成率上仍高出6.6个百分点。

PinchBench是开源Agent评测基准,覆盖了写作、研究、编码、分析、邮件、文件处理等场景,考察模型在工具使用、多步推理和任务执行中的能力。

PinchBench评测要求模型完成真实任务,综合衡量成功率、速度和成本,因此测试周期更长、资源消耗更高,单任务的Token消耗可达数十万。模型在PinchBench上的表现,能够更好地体现其在复杂真实场景中的能力与稳定性。

在北京车展期间,商汤绝影将推出搭载Sage的Sage Box,助力汽车迈入超级智能体时代。

Sage端侧大模型在PinchBench中表现优异,背后是商汤绝影围绕Sage后训练阶段自研的两项关键技术:SCout和ERL。

SCout技术解决大模型学习复杂任务时的高成本、试错慢的问题,在复杂任务能力注入过程中可节省约60%的GPU小时消耗。SCout的思路是“探路与吸收解耦”,先派轻量小模型快速在任务里跑一遍,筛选出可行路径,再把高价值经验喂给大模型学习。

ERL聚焦复杂任务链中的错误识别与纠偏。用户的需求往往需要模型跨多个步骤完成推理和执行,ERL让模型能够自动识别推理过程中的错误步骤,进行擦除并重新生成,从源头阻断偏差扩散。此技术让Sage在多跳复杂推理基准上取得显著提升,装车后在复杂任务上的完成率提升了20%。

SCout和ERL两项技术共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。结合多模态架构与原生训练数据的优势,Sage在能力、成本与产出可行性之间取得了平衡。

Sage在MMLU Pro测试中获得76分,领先同级端侧模型约10%;GPQA Diamond测试中,Sage获得77分,提升33%;Human SEMantic Understanding测试中获91分,提升32%。

商汤绝影发布端侧多模态智能体基座大模型Sage,PinchBench实测94%最佳任务完成率

在τ2-bench基准上,Sage以80分的成绩较Gemini 4实现38%的提升。这项基准专门评估模型使用工具和完成多步任务的能力,是区分“会聊天的模型”与“会办事的智能体”的关键分水岭。

Sage的专业能力转化为影响用户体验的指标:Sage场景推理精度超过90%,长链路工具使用、逻辑规划、环境感知任务成功率分别达92%、89%、94%,复杂指令遵循率提升40%。

在O基于Rin X平台部署下,Sage可实现首字响应约0.5秒、单Token推理延迟低至0.03秒,生成吞吐达到80 tk/S,为座舱智能体提供稳定、实时的运行能力。模型可以解析用户的复合指令,自动联动车载系统完成任务闭环,结合传感器对乘员状态与路况的感知,主动提供儿童模式、智能路线调整等服务。Sage不再是“被动唤醒”的语音助手,而是一个懂场景、会思考、能服务的出行伙伴。

商汤绝影Sage端侧多模态智能体基座大模型为舱驾一体方案打通了量产可行的模型路径,推动智能座舱从基础交互向高阶舱驾融合智能体服务跨越。