互联网资讯 · 2026年5月9日 0

MoMA平台发布:调用超300款模型,Token成本降低30%

【TechWeb】5月8日,在2026移动云大会主论坛上,中国移动推出了MoMA平台。该平台整合了超过300款先进的AI模型,旨在通过丰富的资源和应用模式,促进AI的普及,力求让AI像水和电一样“随时可得、随处可用”,深入千家万户及各行各业。

中国移动发布MoMA平台:一站式调用超300款模型,单位Token成本压降30%以上

开放普惠,使AI触手可及

MoMA建立了一个“一次接入、智能优选、普惠可用、安全可信”的一站式模型服务体系,大幅降低了AI应用的门槛。

提供统一的API网关,用户仅需一次接入便可利用平台上的所有模型资源。目前,MoMA已接入中国移动自研的“九天”基座大模型,以及DeepSeek、通义千问、豆包、KiMi、GL等优质行业模型,涵盖文本生成、语音处理、多模态理解等多项功能,以满足政务、金融、工业、医疗、教育等多种场景的需求。

创新智能路由引擎,根据用户的需求,可以灵活切换“成本优先”“效果优先”“均衡优先”等三种策略,为用户动态匹配最合适的模型。当模型出现超时、流量或故障时,平台能够实现秒级自动切换,确保业务连续性。

降低模型使用成本,MoMA平台通过国产算力部署自研推理引擎,并结合智能路由对长尾模型资源进行调度,成功将单位Token成本压降30%,同时降低资源占用率50%。此外,智能缓存、上下文复用、Token压缩等技术手段进一步压缩了使用成本。平台的中立路由原则为用户在业务效果与算力成本之间找到了理想平衡。

提供服务保障,MoMA推出“机密模型”服务,将模型部署在机密容器中,利用硬件隔离技术确保计算过程中的数据安全,实现“可用不可见”。这一能力覆盖从芯片到应用的全链路计算,为政务、金融等对数据安全要求较高的场景提供了可靠支持。

集约运营,提升Token高效调用

开放普惠主要解决“用得起、用得上”的问题,而集约化运营则聚焦“用得好、管得住”的难点。MoMA围绕Token全生命周期,构建了从精准计量、风险管控到经营分析的完整运营闭环体系,实现算力资源的清晰记录、高效流转与安全管控,推动算力资源的规范及集约化利用。

实时精准计量,按需计费。平台实施流式实时计费,用户使用Token计费的端到端时延不超过1分钟,实现“即用即付”,有效解决传统按包计费模式所带来的资源浪费及账单消费缺乏透明度的问题。

利用专属风控,确保Token计费全流程可追溯、可审计、可闭环,从根源杜绝资源挤占、费用超支及服务中断的风险,确保每一笔Token消耗清晰透明。

提供链路观测,有据可依。平台具备全链路可观测能力,实时采集时延、吞吐量、Token消耗、GPU资源等关键指标,将监控、预警、诊断集成于一体的运营指标体系,覆盖客户、订购、使用、收入等多维度数据。AI投入与产出一目了然,为用户的经营决策提供了具体依据。

中国移动发布MoMA平台:一站式调用超300款模型,单位Token成本压降30%以上

未来,中国移动将继续提升MoMA服务平台的质量与效率,与产业伙伴携手释放算力新动能,拓展智能新空间,推动人工智能更广泛、高效、安全地服务于经济社会发展。