已完成硬件到软件的布局

一键部署OpenClaw

昇腾在硬件与软件布局方面已取得显著成就。自去年以来，中国在大模型能力方面已达到全球领先水平。例如，mini Max M2.5和Ki Mi K2.5在OpenR平台上表现卓越，DeepSeek V4时常与GPT-5相提并论。然而，很多人未意识到，这些模型成功运行的根本原因在于强大的算力基础。

当我们探讨“算力不足的情境”时，答案与Agent时代的到来密切相关。在这一阶段，“能运行”和“流畅运行”之间的差异愈加明显。

在2026年的鲲鹏开发者大会上，昇腾展示了更深入的洞察：过去一年，模型的调优频率激增了50到100倍，序列长度从Chatbot时代的4K飙升至接近1M，跨维度的效率提升达到了250倍。此外，MoE推理对延迟的要求愈发严苛，正在从10毫秒逼近1毫秒级别。

这并非仅仅是“模型变大”的问题，而是整个算力结构需要进行质的重构。因此，关键问题在于，当Agent需求以指数级增长时，现有的算力架构能支撑多久？

从这个角度看，昇腾在峰会上提到的三项内容，即超节点架构、全面开源软件及开发者体验升级，皆围绕一个核心问题展开：如何将算力从“能够运行模型”进化为“天然适应Agent”？

这并不是三个独立的议题，而是从硬件到软件再到开发者的整个技术链条，在Agent时代来临之前必须完成的系统性重构。

超节点架构，实现数千个NPU间更强大的算力。

在Chatbot时代，序列长度约为4K，KVCache一次即可满足需求，NPU间的通信压力相对较小且易于控制。

然而，进入Agent时代后，推理链长度几乎达到了1M，KVCache需频繁跨NPU跳跃。此时，问题不再仅是“带宽够否”，而是架构层面的问题——NPU之间如何高效通信，直接影响系统性能的提升。

在传统方案中，每个NPU独立存储，跨NPU访问需通过消息语义，即send/recv模式，单次通信在微秒级别。

昇腾的超节点架构自然而然适应Agent负载，其核心标准是“是否实现了全域内存统一编址”。昇腾950芯片的架构创新实现了SI T与SI D双编程模式的融合，成功满足了这一标准。

首先，内存语义发生革命。基于灵衢互联协议和总线控制器，AIC/AIV可通过MTE指令直接访问远端内存，无需额外拷贝。与传统以太网相比，灵衢互联的超节点架构下，MTE指令只需一次操作即可完成。

其次，全球内存统一编址得以实现。在单一虚拟地址空间下，NPU和CPU可以直接访问任何位置，无需修改代码、路由或拷贝。KV Cache实现全球共享，超长上下文无缝扩展。

第三，内存池化带来的效率提升。通过片上内存和DD的分层池化能力，以查代算，KV Cache查询命中率显著提高。在LLM、推荐、Engra等典型场景中，查询延迟降低3到4倍，训练和推理吞吐量相比传统集群提升3到4倍。

三者叠加，使RTT延迟压缩至3微秒，带宽达到TB级别。这才是真正的超节点价值——并非“堆砌更多NPU”，而是让每个Token更高效、更经济。

因此，峰会给出的核心判断很明确：互联能力决定超节点的能力，系统综合性能取决于超节点的规模与单芯片性能规格的乘积。当互联带宽达到T级，超节点需重新定义芯片间的通信方式，而不是单纯“堆更多NPU”。

但是，物理上限只是入场券。真正决定算力生态命运的，是硬件构建后的核心问题：软件的门槛有多高？开发者真的愿意加入吗？

昇腾将走自己独特的道路

吸引开发者的关键在于开源，但开源的底层逻辑已发生变化。

过去，许多硬件的所谓“开源”不过是在围墙外开一扇窗——你能看到代码，但无法修改核心层，更无法参与路线决策。

这是一种“开放姿态”，而非真正的“开源生态”。为何要强调这个区别？因为开源与“看似开源”所打开的生态前景截然不同。

真正的开源意味着开发者愿意在你的平台上持续投入——他们能够修改代码、参与路线决策，技术迭代也不会在某一天戛然而止。而假开源则意味着他们始终需要留有退路，所做的每一项优化都可能成为无用功。在Agent时代，随着软件需求的爆炸式增长、场景每周涌现，开发者选择哪个生态构建基础设施，实质上是在建立信任，信任这个平台不会因为封闭而让他们退回原点。

因此，“开放姿态吸引围观，而‘开源生态’才能留住人。

因此，昇腾在开源道路上的探索更加深入，其核心在于构建一个完整、高效、开放的算子开发体系，让开发者无论从哪个入口进入，都能找到自己的路径。

追求极致性能的工程师可以使用Ascend C进行细粒度控制，包括计算、存储和流，每一步均可调节。同时，昇腾推出了Tensor R API，支持host-device混合编程，并新增CCU通信能力。

而关注快速创新的AI算法工程师则可以使用TileLang或TRITON这两个主流开源接口，这两个接口已实现100%兼容，性能达到Ascend C的0.6到0.9倍，开发周期缩短至一周。目前更支持超过600个TRITON算子和300个TileLang算子。

当然，想在性能与效率之间寻求最佳平衡的开发者，也可以选择PyPTO。

此外，在这套多路径算子编程体系的另一端，CANNBot算子智能体则打通了“最后一公里”。它将微架构优化经验融入技能库，单个Vector算子的生成仅需3小时，从生成到部署全流程不到一天，相比传统人工开发效率提升5倍。

这究竟是如何实现的？不是工具变多了，而是昇腾将“专家经验”转化为“系统能力”。

具体而言，我们发现有两套机制正在推动这一变化。

第一套是Skills体系。昇腾4000多名工程师多年来的调优经验、踩过的坑、验证过的最佳实践，在此被结构化沉淀为200多个可调的Skills模块。它们兼容Claude code、codeX、OpenClaw等主流Agent平台，仅需两行命令即可调用。

以前需要找对人才能解决的问题，现在在Skills中直接可获取。

第二套是Agentic工作流。如今，开发者只需描述意图，7个基础Agent将自动编排接入能力，调研、适配、优化、部署全流程均实现自动化。由“人找工具”变为“工具找人”，昇腾从根本上改变了开发者的工作方式。

当然，我们所看到的更多是从技术层面提升开发者体验。然而，为了让开发者体验的飞轮全面转动，单靠技术或许还不够，昇腾进一步提供了两套新体验。

首先是零成本的试错空间。一键自动部署、平均两分钟即可跑通首个DEMO、上万卡算力资源支撑开源社区——这里所解决的不仅是算力成本，更是“第一次尝试”的心理门槛。很多开发者并非不想使用新平台，而是担心花了时间却未能成功。在这里，昇腾大幅降低了“试一试”的成本，实质上是在消除心理障碍。

其次是可兑现的职业回报。昇腾与头部互联网企业联合打造三层认证体系，附带简历推荐、大厂实习等权益，正在让“我能用好昇腾”这件事本身具备商业化的职业流动性。可以预见，开发者留在某个生态中，从来不仅仅是因为工具好用，而是因为他们在这里积累的技能能够换取实实在在的外部回报。正视这一需求，远比想象中的重要。

因此，这两者的叠加向开发者传递了清晰的信息——来昇腾，无需从头开始。不论是对于开发者，还是对于昇腾，飞轮已全面转动。

结语

在超节点巅峰对话直播中，我们听到产业端的判断，“当智能生产软件的方式变得更高效，人类对软件的需求将井喷。以前的软件太昂贵，很多需求因此被压抑。”

由此可见，Agent时代不仅会消耗更多Token，还将创造过去根本不存在的新需求——软件不再是标准化产品的复用，而是每个人、每个场景的即时定制。一旦这种需求被释放，对算力的渴求将不再是线性的，而是爆炸式的。正如Anthropic创始人Jack Clark所言，到了2028年，Agent可能进入自主进化阶段，那时Token消耗将进入非线性增长通道。

两条线指向同一结论，Agent时代的到来是不可逆转的。你不可能等到Agent全面爆发后再补充架构、开源软件、降低开发者门槛——这就像在堵车时才开始修路。

因此，回顾昇腾在峰会上提出的三项内容，其实是对这一判断的三重回应。

首先，超节点重新定义了NPU间的通信方式，使Agent时代的算力消耗不再受延迟墙的限制，为Agent时代奠定了良好的硬件基础。

其次，CANN的多路径算子编程与CANNBot结合，使任何开发者都能在昇腾平台上从零开始编写高性能算子，为Agent时代夯实了软件能力。

最后，Skills体系和Agentic工作流将4000名工程师的经验打包成每个新手的起点，为开发者铺平了“好用易用”的道路。

三者结合，解释了昇腾今天的追求：不只是应对当前，而是为即将到来的Agent时代做好准备。

申请创业报道，创业新机遇！

免费v2ray密钥

近期文章

人工智能 · 2026年6月2日

已完成硬件到软件的布局

You may also like...

人工智能 · 2026年6月2日

You may also like...

记录信息更高效便捷的讯飞智能录音笔SR302采访座谈

同声传译或将被人工智能取代

抖音Dou+的付费推广是什么？如何使用Dou+功能？