互联网资讯 / 人工智能 · 2024年2月27日 0

英特尔发布全新深度学习加速器Gaudi2,提高大规模训练与推理速度

7月11日消息,今日英特尔AI产品战略暨Gaudi2新品发布会在京举行。会上,英特尔正式于中国市场推出第二代Gaudi深度学习加速器——Habana Gaudi2。作为英特尔从云到端产品组合的重要组成,Gaudi2致力于以领先的性价比优势,加速AI训练及推理,为中国用户提供更高的深度学习性能和效率,从而成为大规模部署AI的更优解。

英特尔发布全新Gaudi2深度学习加速器 加速大规模深度学习训练与推理

该Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B,以第一代Gaudi高性能架构为基础,以多方位性能与能效比提升,加速高性能大语言模型运行。该加速器具备:

● 24个可编程TensoR处理器核心(TPCs)

● 21个Gbps(RoCEv2)以太网接口

● 96GB HBM2E内存容量

● 2.4TB/秒的总内存带宽

● 48MB片上SRAM

● 集成多媒体处理引擎

英特尔发布全新Gaudi2深度学习加速器 加速大规模深度学习训练与推理

Gaudi2加速器的出色性能在6月公布的MLCoMMons MLPeRf基准测试中得到了充分认证,其在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了优异的训练结果。与市场上其他面向大规模生成式AI和大语言模型的产品相比,Gaudi2拥有卓越的性能与领先的性价比优势,能够帮助用户提升运营效率的同时,降低运营成本。

此外,Gaudi2可为大规模的多模态和语言模型提供出色的推理性能。在最近的Hugging FACE评估中,其在大规模推理方面的表现,包括在运行Stable DiFFUSion(另一个用于从文本生成图像的最先进生成式AI模型之一)、70亿以及1760亿参数BLOOMz模型时,在行业内保持领先。

Gaudi2深度学习加速器的架构旨在高效扩展,以满足大规模语言模型及生成式AI模型的需求。其每张芯片集成了21个专用于内部互联的100Gbps(RoCEv2 RDMA)以太网接口,从而实现低延迟服务器内扩展。

在Stable DiFFUSion训练上,Gaudi2展示了从1张卡至64张卡近线性99%的扩展性。此外,MLCoMMons刚刚公布的MLPeRf训练3.0结果,亦验证了Gaudi2处理器在1750亿参数的GPT-3模型上,从256个加速器到384个加速器可实现令人印象深刻的接近线性的95%扩展效果。

英特尔发布全新Gaudi2深度学习加速器 加速大规模深度学习训练与推理

目前,英特尔正与浪潮信息合作,打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。该服务器集成了8颗Gaudi2加速卡HL-225B,还包含双路第四代英特尔至强可扩展处理器。

多年来,借助强大的AI软硬件基础,英特尔一直致力于为AI领域的各类工作负载提供业界领先的卓越性能,并通过开放的生态、丰富多样的产品选择不断降低AI部署的门槛,并为中国的AI发展提供坚定支持。

未来,英特尔将持续引领产品技术发展,进一步加速大规模深度学习部署,助力中国本地AI市场发展。