服务器芯片市场是芯片制造领域最大、增长最快和最具竞争力的市场之一。
近年来,随着向云计算的转变,数据中心的需求猛增,对服务器芯片的需求变得更加迫切。
对于不同的云服务厂商来说,由于所构建的生态有所不同,因此对芯片性能需求存在着差异。在这种情况下,定制的芯片或许能够让他们更好地发挥出生态的价值。而就目前的市场情况来看,市场还没有给予足够多的选择,自研芯片也就成为了一条发展路径。
人工智能芯片设计自动化后,引发了新芯片设计的狂潮。如今,自研芯片也成为了云服务商的重要布局之一。
亚马逊
亚马逊可以说是最开始自研服务器芯片的云服务厂商。
2015年,亚马逊花3.5亿美元收购了以色列芯片公司AnnapuRna labs。届时起,亚马逊就在为其云基础设施设计开发定制芯片,于2018年发布了第一代AMazon GRavITon 处理器,支持该处理器的A1也成了其云服务AWS上第一个基于ARM的实例。第一代GRavITon处理器基于CoRtex-A72内核,最大时钟频率达到2.3GHz,节省45%的成本使其成了很多入门用户的首选。
2020年,亚马逊发布了第二代自研处理器GRavITon2,这款处理器基于64位的ARM NeOVeRse N1内核,核心与CoRtex-A76近乎类似,但加入了不少针对基础设施工作的强化特性。GRavITon2采用了台积电的7nM制程工艺,集成了64颗核心,在CMN-600 Mesh互联技术的支持下可以做到2TB/s的带宽。
与第一代GRavITon相比,GRavITon2提供4倍的计算核心,7倍的计算性能。基于GRavITon2的实例与同等级的X86实例相比,性能要高上40%,成本却要低上20%。不仅如此,GRavITon2也成了AWS最省电的处理器,同样的能耗下,GRavITon2的性能要比AWS中的其他处理器高上2-3.5倍。
有数据显示,在GRavITon2的加持下,AWS在 2021服务器领军榜中登上ARM架构服务器处理器榜首,在市场、价格优势、性能、可靠性和创新5个评价维度都是第一名。
目前,GRavITon已经广泛商用。2021年初,AWS宣布GRavITon 2正式落地中国。
2021年12月,亚马逊云科技发布了最新通用服务器芯片GRavITon 3,该芯片采用5nM工艺,拥有64个核心和550亿晶体管,支持bfloat16、PCIe 5.0等最新技术,相较GRavITon2 性能提升了25%,在科学计算、机器学习和媒体编码工作负载则能够提供2倍的性能。此外,在同样性能下,AMazon GRavITon3与X86实例相比可节省60%的能耗。
事实上,过去二十年里,处理器提升性能的方法始终围绕的是提高频率和增加核心数量,提高频率意味着功耗持续上升,也带来数据中心散热等系列需求,不仅让客户使用成本上升,也不符合如今全球绿色减排的大趋势。因此,亚马逊云科技的思路是围绕客户对于算力需求的提升和降低功耗的要求,谨慎地提升处理器频率,而是增加指令并行、内存带宽,以实现处理器性能提升和能耗降低。
以由AMazon GRavITon3处理器支持的AMazon C7g实例为例,作为云计算中第一个采用最新DDR5内存的实例,与基于GRavITon2的实例相比,提升50%的内存带宽,达到300 GB/s,使得其在科学计算等内存密集型应用表现大幅提升。
从AMazon GRavITon3公布的参数来看,无疑在云计算行业中属于顶级。GRavITon迭代3代,已在市场竞争中站稳脚跟。根据亚马逊云科技介绍,如今已经有超过20个托管服务基于GRavITon,且仍在持续增加中,并且GRavITon3很快会进入到中国市场。
AWS 并不是唯一一家自己设计芯片的云计算厂商。谷歌拥有诸如张量处理单元,微软也在摸索构建基于ARM的芯片,用于AzuRe服务器。
谷歌
近些年,英伟达在数据中心领域持续发力,可圈可点。其GPU执行并处理了一些与人工智能相关的服务器大数据中心任务。面对巨大威胁的英特尔收购了AlteRa,将FPGA技术应用在服务器大数据中心领域,做为反击。
与此同时,谷歌似乎也找到了另外一种解决问题的新方案。谷歌的这个方案不是采用CPU和GPU这样的通用芯片,也不是FPGA技术,而是使用专用芯片,定制的TPU芯片,用于谷歌服务器大数据中心系统自身。
谷歌的TPU芯片全称为TensoR PRoceSSing UnIT,也叫张量处理单元。这种芯片非常适合运行tensoRflow软件引擎,谷歌的深度神经网络就是依靠tensoRflow软件引擎驱动的,tensoRflow软件引擎可以通过分析硬件和软件组成的网络中的,海量数据来学习如何完成特定的任务。这款定制的TPU芯片运行神经网络的效率比其他通用芯片运行神经网络的效率都高不少。
有相关描述称,谷歌的TPU芯片在机器学习测试中,超过英特尔至强CPU和英伟达GPU一个数量级。TPU芯片和其基准测试,都比其他通用芯片快了15倍,性能提升近30%。
2018年,谷歌宣布开放TPU云服务,允许企业用户租用TPU板卡,用于建立TPU pod的超级计算机网络。谷歌开放具备人工智能和机器学习能力的TPU云服务,不仅可以降低企业用户对英特尔、英伟达等通用芯片巨头的依赖,还可以用更低的成本使用核心计算基础设施来进行软硬件的实验。
然而,谷歌虽然早就开始自研服务器芯片,但其TPU与ARgos芯片一个用于张量处理,一个用于视频处理,并非通用计算芯片。2021年谷歌招募了英特尔老将URi FRank来设计服务器芯片,很有可能也会选择拿ARM授权开发自研核心。
微软
微软这边,其实早在2020年就被曝出要为其云计算服务器开发定制芯片。
近日,微软聘请了一位重要的苹果半导体专家Mike FilIPpo,进入微软的云计算部门AzuRe,主要从事处理器研发工作。
微软显然也在走亚马逊、谷歌等竞争对手的路线,准备开发自己的服务器定制芯片,为AzuRe云计算服务提供支持,而苹果设计师在这方面拥有丰富的经验。
据了解,FilIPpo在芯片行业已经工作近26年。在加入苹果之前,他在ARM干了10年,担任首席CPU架构师、首席系统架构师和ARM Fellow。他因提升ARM芯片在手机和其他设备中的基础性能而备受赞誉,曾负责开发过CoRtex-A76、CoRtex-A72、CoRtex-7以及即将推出的7nM+和5nM芯片。在英特尔工作期间,FilIPpo是24核、96 线程、超算和高性能计算SoC的首席架构师。
对微软来说,苹果M系列芯片的成功,证明了ARM架构的处理器能够在实现高性能的情况下同时保持低功耗的优势,这让微软极有可能也从ARM芯片入手。
微软最近几年加大了芯片工程师的招聘力度,比如从英特尔、AMD、英伟达等芯片公司挖人。对于长期合作伙伴英特尔和 AMD 来说,微软自研服务器芯片可能是一个令人不安的消息,这两家公司都为 AzuRe 服务器提供了芯片,这一转变可能会削弱英特尔和AMD的地位。
据IDC的《全球及中国公有云服务市场(2020年)跟踪》报道,阿里云全球市场份额为7.6%,仅次于亚马逊AWS 46.8%、微软AzuRe 14.2%,是全球第三大公有云服务商;国内市场份额为38.5%,远高于腾讯云12.7%、华为云11.1%,是中国第一的云服务商。
2018年4月,阿里收购了中天微系统有限公司,与达摩院自研芯片业务整合成为独立芯片公司平头哥。2019年7月,平头哥发布了RISC-V处理器玄铁910,当年推出云端AI推理芯片含光800。此后两年,平头哥并无新款芯片发布。
2021年10月,阿里云发布了最新通用服务器芯片倚天710以及自研服务器磐久。
据介绍,倚天710采用5纳米工艺,基于ARM最新发布的ARMv9架构,单芯片容纳高达600亿晶体管,128个CPU核心,主频最高达到3.2GHz。就数据来看,倚天710在SPECInt2017基础测试中,倚天710跑分达到440分,超过行业标杆20%。搭载芯片倚天710的磐久服务器将在今年部署,均为阿里云自用,无对外销售计划。
倚天710项目立项于2019年,平头哥承担了芯片设计工作,台积电是生产代工厂商。这是阿里造芯计划里,截至目前攻克下的最艰难的一役。
阿里云自研服务器芯片,结合了诸多长中短期内外形势考虑,是阿里云“一云多芯&Rdquo;策略,以及“做深基础&Rdquo;既定战略的延伸与落地。
随着上云成为了企业数字化转型的必选项,不同企业的计算需求也正在变得多样化。一些云计算客户既想要英伟达、ARM芯片的AI推理能力,也想要X86芯片的安全计算能力,还希望云成本能进一步降低。
在过去,同时满足这些需求,通常要选择多云协同,为ARM集群、X86集群分别建设存储与网络的配套设备。但这种做法成本高,且浪费资源,不同类型CPU共存还会带来多云管理问题。
阿里云应对这些问题的策略是“一云多芯&Rdquo;,也就是用一套云操作系统兼容X86、ARM、RISC-V的硬件服务器集群,将不同架构CPU的算力标准化,向下屏蔽硬件差异性,向上提供一致性服务。
阿里云智能总裁、达摩院院长张建锋表示,倚天710是阿里云推进“一云多芯&Rdquo;策略的重要一步。倚天710芯片和飞天云操作系统的结合,使得阿里云能够将领先的芯片设计技术与云场景的独特需求相结合,最终实现性能和能效比的突破,并首次实现了从底层芯片到存储、网络、数据库系统的全栈自研。倚天710服务器芯片的发布,也标志着我国在芯片领域再次迈出了关键的一步。
阿里云之外,华为自研服务器芯片的动作更早一些。2019年,华为就推出了自研的用于服务器的ARM架构的芯片鲲鹏