人工智能 · 2026年6月2日

已完成硬件到软件的布局

一键部署OpenClaw

昇腾在硬件与软件布局方面已取得显著成就。自去年以来,中国在大模型能力方面已达到全球领先水平。例如,mini Max M2.5和Ki Mi K2.5在OpenR平台上表现卓越,DeepSeek V4时常与GPT-5相提并论。然而,很多人未意识到,这些模型成功运行的根本原因在于强大的算力基础。

当我们探讨“算力不足的情境”时,答案与Agent时代的到来密切相关。在这一阶段,“能运行”和“流畅运行”之间的差异愈加明显。

在2026年的鲲鹏开发者大会上,昇腾展示了更深入的洞察:过去一年,模型的调优频率激增了50到100倍,序列长度从Chatbot时代的4K飙升至接近1M,跨维度的效率提升达到了250倍。此外,MoE推理对延迟的要求愈发严苛,正在从10毫秒逼近1毫秒级别。

这并非仅仅是“模型变大”的问题,而是整个算力结构需要进行质的重构。因此,关键问题在于,当Agent需求以指数级增长时,现有的算力架构能支撑多久?

从这个角度看,昇腾在峰会上提到的三项内容,即超节点架构、全面开源软件及开发者体验升级,皆围绕一个核心问题展开:如何将算力从“能够运行模型”进化为“天然适应Agent”?

这并不是三个独立的议题,而是从硬件到软件再到开发者的整个技术链条,在Agent时代来临之前必须完成的系统性重构。

超节点架构,实现数千个NPU间更强大的算力。

在Chatbot时代,序列长度约为4K,KVCache一次即可满足需求,NPU间的通信压力相对较小且易于控制。

然而,进入Agent时代后,推理链长度几乎达到了1M,KVCache需频繁跨NPU跳跃。此时,问题不再仅是“带宽够否”,而是架构层面的问题——NPU之间如何高效通信,直接影响系统性能的提升。

在传统方案中,每个NPU独立存储,跨NPU访问需通过消息语义,即send/recv模式,单次通信在微秒级别。

昇腾的超节点架构自然而然适应Agent负载,其核心标准是“是否实现了全域内存统一编址”。昇腾950芯片的架构创新实现了SI T与SI D双编程模式的融合,成功满足了这一标准。

首先,内存语义发生革命。基于灵衢互联协议和总线控制器,AIC/AIV可通过MTE指令直接访问远端内存,无需额外拷贝。与传统以太网相比,灵衢互联的超节点架构下,MTE指令只需一次操作即可完成。

其次,全球内存统一编址得以实现。在单一虚拟地址空间下,NPU和CPU可以直接访问任何位置,无需修改代码、路由或拷贝。KV Cache实现全球共享,超长上下文无缝扩展。

第三,内存池化带来的效率提升。通过片上内存和DD的分层池化能力,以查代算,KV Cache查询命中率显著提高。在LLM、推荐、Engra等典型场景中,查询延迟降低3到4倍,训练和推理吞吐量相比传统集群提升3到4倍。

三者叠加,使RTT延迟压缩至3微秒,带宽达到TB级别。这才是真正的超节点价值——并非“堆砌更多NPU”,而是让每个Token更高效、更经济。

因此,峰会给出的核心判断很明确:互联能力决定超节点的能力,系统综合性能取决于超节点的规模与单芯片性能规格的乘积。当互联带宽达到T级,超节点需重新定义芯片间的通信方式,而不是单纯“堆更多NPU”。

但是,物理上限只是入场券。真正决定算力生态命运的,是硬件构建后的核心问题:软件的门槛有多高?开发者真的愿意加入吗?

昇腾将走自己独特的道路

吸引开发者的关键在于开源,但开源的底层逻辑已发生变化。

过去,许多硬件的所谓“开源”不过是在围墙外开一扇窗——你能看到代码,但无法修改核心层,更无法参与路线决策。

这是一种“开放姿态”,而非真正的“开源生态”。为何要强调这个区别?因为开源与“看似开源”所打开的生态前景截然不同。

真正的开源意味着开发者愿意在你的平台上持续投入——他们能够修改代码、参与路线决策,技术迭代也不会在某一天戛然而止。而假开源则意味着他们始终需要留有退路,所做的每一项优化都可能成为无用功。在Agent时代,随着软件需求的爆炸式增长、场景每周涌现,开发者选择哪个生态构建基础设施,实质上是在建立信任,信任这个平台不会因为封闭而让他们退回原点。

因此,“开放姿态吸引围观,而‘开源生态’才能留住人。

因此,昇腾在开源道路上的探索更加深入,其核心在于构建一个完整、高效、开放的算子开发体系,让开发者无论从哪个入口进入,都能找到自己的路径。

追求极致性能的工程师可以使用Ascend C进行细粒度控制,包括计算、存储和流,每一步均可调节。同时,昇腾推出了Tensor R API,支持host-device混合编程,并新增CCU通信能力。

而关注快速创新的AI算法工程师则可以使用TileLang或TRITON这两个主流开源接口,这两个接口已实现100%兼容,性能达到Ascend C的0.6到0.9倍,开发周期缩短至一周。目前更支持超过600个TRITON算子和300个TileLang算子。

当然,想在性能与效率之间寻求最佳平衡的开发者,也可以选择PyPTO。

此外,在这套多路径算子编程体系的另一端,CANNBot算子智能体则打通了“最后一公里”。它将微架构优化经验融入技能库,单个Vector算子的生成仅需3小时,从生成到部署全流程不到一天,相比传统人工开发效率提升5倍。

这究竟是如何实现的?不是工具变多了,而是昇腾将“专家经验”转化为“系统能力”。

具体而言,我们发现有两套机制正在推动这一变化。

第一套是Skills体系。昇腾4000多名工程师多年来的调优经验、踩过的坑、验证过的最佳实践,在此被结构化沉淀为200多个可调的Skills模块。它们兼容Claude code、codeX、OpenClaw等主流Agent平台,仅需两行命令即可调用。

以前需要找对人才能解决的问题,现在在Skills中直接可获取。

第二套是Agentic工作流。如今,开发者只需描述意图,7个基础Agent将自动编排接入能力,调研、适配、优化、部署全流程均实现自动化。由“人找工具”变为“工具找人”,昇腾从根本上改变了开发者的工作方式。

当然,我们所看到的更多是从技术层面提升开发者体验。然而,为了让开发者体验的飞轮全面转动,单靠技术或许还不够,昇腾进一步提供了两套新体验。

首先是零成本的试错空间。一键自动部署、平均两分钟即可跑通首个DEMO、上万卡算力资源支撑开源社区——这里所解决的不仅是算力成本,更是“第一次尝试”的心理门槛。很多开发者并非不想使用新平台,而是担心花了时间却未能成功。在这里,昇腾大幅降低了“试一试”的成本,实质上是在消除心理障碍。

其次是可兑现的职业回报。昇腾与头部互联网企业联合打造三层认证体系,附带简历推荐、大厂实习等权益,正在让“我能用好昇腾”这件事本身具备商业化的职业流动性。可以预见,开发者留在某个生态中,从来不仅仅是因为工具好用,而是因为他们在这里积累的技能能够换取实实在在的外部回报。正视这一需求,远比想象中的重要。

因此,这两者的叠加向开发者传递了清晰的信息——来昇腾,无需从头开始。不论是对于开发者,还是对于昇腾,飞轮已全面转动。

结语

在超节点巅峰对话直播中,我们听到产业端的判断,“当智能生产软件的方式变得更高效,人类对软件的需求将井喷。以前的软件太昂贵,很多需求因此被压抑。”

由此可见,Agent时代不仅会消耗更多Token,还将创造过去根本不存在的新需求——软件不再是标准化产品的复用,而是每个人、每个场景的即时定制。一旦这种需求被释放,对算力的渴求将不再是线性的,而是爆炸式的。正如Anthropic创始人Jack Clark所言,到了2028年,Agent可能进入自主进化阶段,那时Token消耗将进入非线性增长通道。

两条线指向同一结论,Agent时代的到来是不可逆转的。你不可能等到Agent全面爆发后再补充架构、开源软件、降低开发者门槛——这就像在堵车时才开始修路。

因此,回顾昇腾在峰会上提出的三项内容,其实是对这一判断的三重回应。

首先,超节点重新定义了NPU间的通信方式,使Agent时代的算力消耗不再受延迟墙的限制,为Agent时代奠定了良好的硬件基础。

其次,CANN的多路径算子编程与CANNBot结合,使任何开发者都能在昇腾平台上从零开始编写高性能算子,为Agent时代夯实了软件能力。

最后,Skills体系和Agentic工作流将4000名工程师的经验打包成每个新手的起点,为开发者铺平了“好用易用”的道路。

三者结合,解释了昇腾今天的追求:不只是应对当前,而是为即将到来的Agent时代做好准备。

 

申请创业报道,创业新机遇!