使用“扫一扫”即可将网页分享至朋友圈。
AWS做交换机芯片的逻辑
本文来自微信公众号“半导体行业观察”。
得益于2015年以3.5亿美元收购了AnnapurnaLabs,亚马逊云服务公司(AWS)可以借助基于Arm的CPU和相关的DPU来开拓自己的道路。但是在可预见的将来,它必须提供基于X86处理器(可能同时来自Intel和AMD),因为这是世界上大多数IT商店运行其大多数应用程序的芯片。
在最近对其Graviton2实例及其与X86实例进行比较的分析中,我们谈到了这一点。我们甚至认为AWS在将来的某个时候会为该X86计算收取额外费用。其他云提供商也将效仿AWS的举动。据我们所知,在中国,包括腾讯和阿里巴巴在内的云服务商都对arm服务器芯片有所期待,在北美和欧洲拥有庞大云服务的微软也有同样的想法。
对于云客户而言,他们在交换机或路由ASIC上并没有像CPU那样明确的支持,这就是为什么我们认为,正如传闻中的那样,AWS可能实际上正在考虑制造自己的交换机ASIC。
长期以来,AWS长期一直在构建自定义服务器和交换机,过去十年来,它一直在关注其零件供应链以及堆栈的垂直整合。我们在六年前说过,如果所有超大规模生产商最终完全控制了其内部使用的半导体部分,我们并不会感到惊讶。届时云用户从未见过的后端基础架构的一部分,或者客户从未接触过的平台服务或软件订阅的的任何半导体都可以使用自主开发的ASIC来完成。我们认为这会在AWS,Microsoft,Google和Facebook等互联网巨头上发生。阿里巴巴,腾讯和百度和其他在世界其他地方拥有足够大市场的云供应商也会积极参与其中。
对于交换机和路由器芯片来说,确实是这样。购买基础设施服务的人(甚至购买基础设施服务之上的任何平台服务的人)基本上看不到网络芯片,实际上,网络本身对他们来说是看不见的。这是一个看不见的例子。几年前,当我们访问位于华盛顿州昆西的Microsoft时,我们向负责Azure计算的公司副总裁CoreySanders询问了支持Azure的Microsoft网络的总带宽。“您知道,老实说,我不知道-而且我不在乎,”桑德斯告诉我们。“它看起来是无限的。”
关键是,无论AWS和Broadcom正在进行什么推动和推动,它都永远不会表现为客户看到或关心的事物。
关于hyperscalers,市场上有很多讨论,因此让我们从显而易见的内容开始。所有这些公司都一直讨厌任何封闭式的设备,因为它们无法拆开盖子,撕开并根据自己的独特需求和规模进行大规模定制,然而这是绝对正确的行为。
Hyperscalers和公有云打破了性能和规模壁垒,这是地球上大多数公司(以及绕着Rigel和Sirius运转的公司)永远不会遇到的,但那是他们需要的,而不仅仅是他们的骄傲。Hyperscalers和最大的云建设者所面临的问题是芯片供应商及其OEM和ODM所能想到的。而且,它们无法以CiscoSystems的速度发展,这是一个问题。因为他们需要花费18到24个月的时间才能将功能引入下一代ASIC。这就是为什么软件定义的网络和可编程交换机对他们如此重要的原因。
最终,这些公司为分散的交换和路由进行斗争,以降低硬件价格,并允许他们将自己的网络交换和路由软件堆栈迁移到更多种类的硬件上。这样,他们就可以使ASIC供应商和OEM以及现在的ODM相互竞争。他们做出这样决定原因很简单,那就是网络成本呈爆炸式增长。
AWS的杰出工程师詹姆斯·汉密尔顿(JamesHamilton)协助构建了许多自己的基础设施,他在2014年末的re:Invent会议上对这一切进行了解释,那是发生子啊云巨头开始设计自己的交换机和路由器五年后。
汉密尔顿(Hamilton)在Re:Invent2014的主题演讲中解释说:“网络现在对我们来说是一个红色警报情况。相对于所有其他设备,网络设备的成本正在快速上升。这是反摩尔定律的,因为我们其他所有的设备都在降低成本,我们也正在降低价格,而网络却往错误的方向发展。这是一个非常大的问题,我想研究几年,并且看到网络问题的规模不断恶化。在网络正在抵抗摩尔定律的同时,网络与计算的比例也在上升。”
他谈这个的时机很有趣。那是在AWS接受来自Broadcom的交换和路由ASIC的商用芯片之后。这发生在HockTan运营的一家半导体企业Avago斥资370亿美元收购Broadcom的六个月前,收购半导体制造商Broadcom并以此为名。
从黑匣子的外部来看,AWS和新的Broadcom合作了很长的一段时间。对于所有hyperscalers和大型云构建者来说,这可能同样适用。这就是为什么我们从2009年开始看到FulcrumMicrosystems和MellanoxTechnology兴起的原因(Fulcrum在2011年被Intel吞并,Nvidia在2020年把Mellanox吞并),然后是下一波商业芯片供应商,例如BarefootNetworks(由Intel收购),Xpliant(2014年被Cavium收购,(由Marvell在2018年收购),Innovium(由Broadcom和Cavium的人创立),XsightLabs和Nephos。
当然,现在思科系统正在努力弥补所有这些缺陷,尝试将其SiliconOneASIC变为商业芯片。
HockTan收购公司是为了获取利润,因此他并毫不犹豫地将Broadcom正在开发的“Vulcan”Arm服务器处理器出售给Cavium,后者被Marvell收购,并于去年关闭了自己的“Triton”ThunderX3芯片,因为hyperscalers指望的云构建者客户将构建自己的Arm服务器芯片。鉴于旧的Broadcom基本上已经通过其“Trident”和“Tomahawk”ASIC创造了现代交换ASIC商用硅市场,我们推测,新的Broadcom希望比较小的旧Broadcom能够更积极地为其ASIC定价。新的Broadcom在这些hyperscalers和云构建者中占有更大的份额,他们中的许多人还构建了需要大量硅的其他设备。因此,买卖双方之间存在某种缓和。
我们还必须相信所有这些竞争都直接或间接上海了Broadcom交换机和路由器ASIC业务。因此,我们也相信HockTan要求超大规模开发者和云构建者为他们的ASIC支付比他们想要的更多的钱。
他们拥有比过去更多的选择,但变革总是困难而冒险。
我们不知道云供应将使用哪些ASIC,但是我们必须假设所有这些公司在开发和进入第一个芯片时,都希望在各自的硬件上试用了他们自己的网络操作系统。他们选择在网络中的什么地方进行部署,但是最近几年的安全押注是用于交换的BroadcomTomahawkASIC和用于路由的JerichoASIC,并可能以Mellanox或Innovium或Barefoot作为测试和谈判策略。
这种策略可能会在AWS上沿用,如果这样做,原因不仅是硬着头皮和自豪感,还在于2015年以3.5亿美元的价格收购AnnapurnaLabs的成功。因此,AWS可能已决定自行创建网络ASIC。让我们从几个角度来看这件事,首先就是经济学问题。
我们听说,AWS每年仅花费约2亿美元购买Broadcom的交换和路由ASIC。我们相信这个数字要大得多。
让我们做一些数字计算。以具有100,000台服务器的典型超大规模数据中心为例。我们不在乎它们是计算服务器还是存储服务器,平均而言,这些机器中大约有200,000个CPU。从与我们交谈的人到谁为服务器CPU谋生,您每年需要消耗大约40万至500,000个服务器,这意味着每年要消耗80万至100万个CPU,这是因为设计芯片的成本和麻烦,而这些成本将介于每代分别为5000万美元和1亿美元。这不包括制造这些芯片,封装它们以及将它们发送到ODM以构建系统的成本。AWS显然在其25个区域和80个可用区(每个都有如此规模的多个数据中心)中消耗了足够的服务器。
现在,根据网络拓扑的不同,那些具有200,000个服务器芯片的100,000台服务器将需要4,000到6,000个交换ASIC,以形成leaf/spineClos网络来互连所有这些机器。假设在这25个区域中,每个可用区平均有两个数据中心(合理猜测),每个数据中心平均有大约75,000台计算机(在任何给定时间并非所有数据中心都已满),那就是1200万台服务器和2400万台服务器CPU。
根据拓扑的不同,我们现在讨论的是整个AWS舰队中的480,000到720,000个交换ASIC。平均而言,服务器每三年更换一次,但是交换机的使用周期长达五年的时间。有时更长。因此即使以每年20%的速度增长,每年也只是大约有100,000到144,000个开关ASIC。,
但是,这只是计算了数据中心的交换,并不包括AWS的所有交换需求,这些需求将成为其AmazonGo商店和Amazon仓库(本身就是大规模运营)的一部分。如果服务器数量持续增长,而其他业务也是如此,那么亚马逊(ANZM.US)的整体数据中心以及园区和边缘交换需求将很容易证明制造网络芯片的成本和麻烦。
来到路由方面,拥有一套本地化的ASIC,其架构可同时覆盖交换和路由,就像思科正在使用自己的SiliconOne(思科无疑希望将其出售给AWS,但祝您好运)一样,您可以很轻松地实现这一目标。因为每一代ASIC大约需要投资1亿美元。(BarefootNetworks筹集了2.254亿美元,用于生产两代TofinoASIC,而Innovium筹集了4.02亿美元。
现在,让我们从技术角度再谈谈。
AnnapurnaLabs在AWS内如此成功的原因在于,它于2016年发布了最初的“Nitro”Arm处理器,该处理器用于创建SmartNIC,行业中许多人现在将其称为“数据处理单元”或“数据平面单元”,具体取决于,但还是采用DPU的方式——虚拟化存储和网络,并使其脱离服务器上的管理程序。
现在,新的Nitros在CPU之外的所有虚拟机管理程序中都受到了关注,并且功能更加强大。基于此产生了用于原始计算的Graviton和Graviton2CPU,用于机器学习推理的Inferentia加速器以及用于机器学习培训的Trainium加速器。我们不会惊讶地看到具有大量bigfatvectors的HPC变体从AWS中问世,并且还充当混合HPC/AI工作负载的推理引擎,承担着双重职责。
自家生产的CPU始于特定领域,并迅速在AWS内部的所有计算中传播。网络芯片也可能发生同样的情况。
AWS控制其自己的网络操作系统堆栈以进行数据中心计算(我们不知道其具体名称),并且可以将该堆栈移植到感觉上的任何ASIC。它在其边缘和AmazonGo位置具有开源的Dent网络操作系统。
重要的是,AWS可能会研究Nvidia在“Volta”和“Ampere”GPU上使用的处理方式,并决定需要创建一个使用内存协议的开关,以创建类似NUMA的Trainium芯片集群,以运行更大的机器学习训练。它可以开始将交换机嵌入Nitro卡中,或者使用机架内和机架间的以太网交换来构建可组合的基础架构。
如果AWS制造的每个CPU都拥有便宜的以太网交换机而不是以太网端口怎么办?这是我们要记住的重要事情。
来自AnnapurnaLabs的人员迁移到AWS已有深厚的网络历史,他们的一些最亲密的同事现在在XsightLabs。因此,当AWS正在从XsightLabs测试ASIC以了解它们如何与Broadcom的芯片竞争时,关于本地网络ASIC的讨论可能还是有些模糊。
又或者,在选择AWS作为Nitro芯片设计商和制造商之后,AWS像收购AnnapurnaLabs那样,再次收购XsightLabs,这也不是不可能的事。去年12月,XsightLabs宣布将对其X1系列中的两种交换机ASIC进行送样,其中一种具有25.6Tb/sec的总带宽,可以将32个端口以800Gb/sec的速度推入,而另一个拥有12.8Tb/sec的带宽,可以以32Gb/s的速度推入。在使用100Gb/秒SerDes和PAM4编码,速度可达到400Gb/秒。
组建一个AWS所需能力的网络ASIC团队将很困难,但并非并非不可能。但是正如我们指出的那样,AnnapurnaLabs的人是一个很好的起点。我们完全意识到,设计由SerDes封装的数据包处理引擎与设计和由一系列内核封装的I/O和内存集线器所需要的技能完全不同。
我们认为,这一切都始于GalileoTechnology。该公司由AvigdorWillenz于1993年成立,专注为嵌入式市场开发高性能MIPSRISCCPU。伽利略(Galileo)创造的这种芯片最终主要用于数据通信设备中,并最终基于PowerPC内核进行了设计,在Arm芯片推出之前,该芯片最终统治了嵌入式市场。
在1996年,Galileo抓住了机遇,并致力于创建用于LAN的GalNet系列以太网交换机ASIC(于1997年推出),并最终将其扩展到用于WAN的HorizonASIC。在2000年初互联网热潮的高峰期,Willenz变现并以27亿美元的价格将Galileo卖给了Marvell。
如果价格不算太高,那么AWS收购XsightLabs团队的可能性与从头开始建立自己的团队一样。如果没有,那么也许AWS会考虑购买Innovium,该公司还将400Gb/sec以太网ASIC投入领域。凭借上一轮融资,Innovium达到了独角兽的地位,因此其12亿美元的估值可能对AWS的血液而言有点可观。这很大程度上取决于Innovium在我们怀疑已经与AWS合作的任何业务之外销售TeralynxASIC的吸引力。奇怪的是,最后一轮资金可能使Innovium太昂贵,以至于AWS难以购买。
如果您大吃一惊,我们认为AWS肯定会使用自己的网络ASIC,这只是时间问题。其中包括该公司垂直整合其堆栈核心元素的愿望。
尽管有种种谣言四处流传,但这可能不是现在。再说一次,随着时间和规模的增加,一切都会变得更加昂贵。无论发生什么情况,我们都怀疑在re:Invent的某个时刻会听到有关定制网络ASIC的消息,甚至有可能是今年秋天。
“广东财经网”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服邮箱1098101642@qq.com,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
- 声音提醒
- 60秒后自动更新
【民政部回应何时恢复婚姻登记】民政部社会事务司二级巡视员杨宗涛表示,婚姻登记场所是人群聚集场所,部分地区暂停婚姻登记工作是对人民群众安全负责。未停止登记的地方推广用电话、网络、qq群预约登记,控制登记人数,分批分段登记,减少人员聚集和在登记机关停留时间。已停止婚姻登记地方将根据当地疫情控制情况逐渐恢复。
15:54欧洲央行副行长金多斯:欧洲央行还没有达到逆转利率。宽松政策的副作用更明显了。
15:54财经网站Forexlive分析师Justin Low评瑞士1月CPI月率:尽管通胀年率保持稳定,但核心通胀率有所下降,这一点令人更加担忧。这只是进一步巩固了瑞士央行维持现有货币政策不变,并可能在未来寻求更多宽松措施的观点。
15:54【武汉两大批发市场商户开业率超过80%】商务部市场建设司司长朱小良10日称,目前武汉生活必需品供应基本正常,除冷鲜肉、鲜叶菜等少数品种存在结构性短缺外,大部分重要生活物资供应充足,未发生明显抢购或脱销断档情况。当地白沙洲和四季美两大批发市场正常营业,商户开业率超过80%,日交易量上升至3000吨以上。(国是直通车)
15:53【日本2019年经常项目顺差增长4.4%】日本财务省10日发布的国际收支初步统计报告显示,主要受外国人入境游消费扩大影响,2019年日本经常项目顺差增长4.4%。报告显示,2019年日本经常项目顺差为20.06万亿日元(1美元约合109.8日元)。其中,商品贸易方面,由于液化天然气价格下跌等因素,进口下降5.6%至75.56万亿日元;由于汽车部件及钢铁等产品出口减少,出口下降6.3%至76.12万亿日元。货物贸易顺差减少53.8%,为5536亿日元。(新华社)
15:53欧元兑美元EUR/USD短线波动不大,现报1.0952。
15:53瑞士1月CPI年率:0.2%,前值:0.2%,预期:0.1%;瑞士1月CPI月率:-0.2%,前值:0%,预期:-0.2%。
15:52英镑兑美元GBP/USD短线走低13点,现报1.2890。
15:52【宁德时代“供电”国产特斯拉 有望拉低售价20%】全国乘联会秘书长崔东树分析认为,“随着特斯拉国产化率提升和产能爬坡,未来特斯拉国产车型的价格下探空间还是很大的。”他预计今年下半年,国产Model 3车型的售价就有望降至25万元,降幅接近20%。(新京报)
15:51【内蒙古:对不裁员或少裁员企业返还上年度50%失业保险费】据内蒙古新型冠状病毒肺炎疫情防控工作指挥部消息,疫情期间,内蒙古对不裁员或少裁员的企业返还上年度实际缴纳失业保险费的50%,对面临暂时性经营困难的中小企业,返还标准提高到上年度6个月企业及其职工缴纳社会保险费的50%。
15:51【商务部:2019年服务进出口总额54152.9亿元 同比增长2.8%】商务部新闻发言人表示,2019年,在服务贸易创新发展试点等政策的激励下,我国服务贸易总体保持平稳向上态势,逆差明显下降,结构显著优化,高质量发展成效初步显现。全年服务进出口总额54152.9亿元(人民币,下同),同比增长2.8%。其中,出口总额19564.0亿元,同比增长8.9%;进口总额34588.9亿元,同比减少0.4%。(第一财经)
15:51【振华股份:疫情导致下游客户开工推迟 产品库存上升】振华化学公告,公司目前生产经营稳定,所有产能均正常开工,原材料采购能基本满足生产需要,由于疫情导致下游客户开工推迟,公司出货量减少,产品库存有所上升。公司将根据客户需求、疫情及市场变化,适度调整生产经营策略,尽可能保持生产经营的稳定。
15:50环旭电子2月10日晚间公告,公司2020年1月合并营业收入为23.27亿元,较去年同期的合并营业收入减少27.83%,较2019年12月合并营业收入环比减少37.23%。
15:49精测电子:与京东方集团签订了多份销售合同,合同累计金额达到6.96亿元。
17:12华夏银行:银保监会同意本公司在全国银行间债券市场发行不超过100亿元人民币的金融债券,募集资金全部用于绿色信贷。
17:03