互联网资讯 / 人工智能 · 2026年5月5日 0

推出本地化的Token负载均衡解决方案

随着DeepSeek、Qwen等大型模型的广泛应用,企业在实际生产环境中面临算力过载、服务中断以及高并发时的延迟波动等诸多挑战,这些问题逐渐成为AI应用落地的关键因素。

作为全球领先的应用交付和API安全解决方案提供商,F5在中国首创了一种本地化的基于Token的负载均衡解决方案(以下简称“TBLB”),旨在支持AI智能推理服务,帮助中国企业在复杂的异构基础设施中有效应对高并发需求和资源利用率的问题,从而确保推理服务在速度、节能和承载能力上的优化,助力企业在AI时代创造更大的业务价值。

由于中国企业普遍采用异构芯片进行混合部署,在推理服务的广泛应用过程中,资源调度问题日益突出,甚至成为AI应用落地的重大挑战。

在异构芯片环境中,算力资源的使用效率和调度能力显得尤为重要。一方面,算力、模型与推理框架之间的适配程度不一,导致部分资源在实际业务中无法充分发挥性能;另一方面,不同算力之间存在结构性的性能差异,使得统一调度和资源匹配变得复杂。同时,传统的请求分发型负载均衡方式无法实时反映底层算力的状态,导致资源分配不均,进一步加剧性能波动与资源浪费。在多重因素的影响下,企业面临的核心问题已从“算力是否充足”转变为“算力能否被高效、稳定地调度与利用”。

为了解决这一难题,F5推出的TBLB方案推动了AI时代算力交付方式的升级。不同于传统负载均衡注重“请求数”的逻辑,TBLB基于Token数量及其对应的计算成本进行精细化调度,将不同长度和复杂度的任务分配至适合的算力节点,有效避免资源空转或局部过载。

该方案引入了基于Token感知和GPU动态压测的自适应调度机制,能够在运行过程中综合评估推理任务的特征与算力状态,包括Token规模、实时负载与利用率、队列长度、KV Cache使用情况以及实例健康状态等关键指标,并根据这些信息动态调整调度策略。通过这一机制,TBLB将多变的推理负载转化为可感知且可调度的算力资源,从而为企业AI业务构建更为稳定和高效的推理服务基础。

AI应用的用户体验主要依赖于首词Token响应时间(TTFT)、单词Token生成时间(TPOT)和端到端时延(E2EL)。传统负载均衡无法感知推理过程中的真实运行状态,而TBLB通过对GPU负载、Token队列等关键指标的实时监控,避免将请求调度到“看似空闲但实际拥塞”的节点,从而有效降低等待时间。在实际测试中,TBLB在多个行业场景显示出显著效果:在新能源汽车场景中,TTFT减少约30%;在金融异构算力环境中,TTFT降低超过40%,同时推理吞吐能力也得到了提升。这表明,延时优化的关键不再仅依赖单点性能提升,而是源于整体调度效率的系统优化。

TBLB方案通过对算力池的动态感知与精准分配,使每个请求都能匹配到当前最合适的执行节点,从而显著提升GPU利用率。在运营商测试场景中,系统在不增加任何GPU投入的情况下,并发能力从400提升至700,时延从20秒降低至180毫秒。这一成果表明,TBLB方案的价值不仅在于降低成本,更在于将原本被浪费的算力转化为可释放的业务能力。

此外,TBLB方案还支持基于API Key、应用识别及策略规则的优先级控制机制,可以在资源紧张时优先调度高优先级请求,限制或延迟低优先级任务,并在资源恢复后动态恢复流量。这使得系统在高峰场景下不再被动承压,而具备可控的资源分配能力。

F5在中国推出的TBLB方案不仅仅是一项产品创新,更代表了一种面向AI推理时代的基础设施理念。以Token为单位理解负载,通过算力调度定义性能,正在成为新的技术共识。随着Token逐渐取代传统流量成为核心计量单位,企业真正需要掌控的,将不仅是模型的能力,更是如何高效、稳定地调度每一次计算。