加载中 ...
首页 > 科技 > 科技要闻 > 正文

全球首例:世界最大芯片解锁“人脑级”AI 模型,集群顶配 1.63 亿核心

2021-08-25 15:38:15 来源:广东财经网

8月25日报道,那个打造出世界最大计算芯片的硅谷明星创企CerebrasSystems,正将“做大做强”的战略贯彻到极致!今日凌晨,CerebrasSystems宣布推出世界上第一个人类大脑规模的AI解决方案,一台CS-2AI计算机可支持超过120万亿参数规模的训练。相比之下,人类大脑大约有100万亿个突触。此外,Cerebras还实现了192台CS-2AI计算机近乎线性的扩展,从而打造出包含高达1.63亿个核心的计算集群。Cerebras成立于2016年,迄今在14个国家拥有超过350位工程师,此前Cerebras推出的世界最大计算芯片WSE和WSE-2一度震惊业界。WSE-2采用7nm工艺,是一个面积达46225平方毫米的单晶圆级芯片,拥有2.6万亿个晶体管和85万个AI优化核,无论是核心数还是片上内存容量均远高于迄今性能最强的GPU。WSE-2被集成在CerebrasCS-2AI计算机中。随着近年业界超大规模AI模型突破1万亿参数,小型集群难以支撑单个模型的高速训练。而Cerebras最新公布的成果,将单台CS-2机器可支持的神经网络参数规模,扩大至现有最大模型的100倍——达到120万亿参数。在国际芯片架构顶会HotChips上,Cerebras联合创始人兼首席硬件架构师SeanLie详细展示了实现这一突破的新技术组合,包括4项创新:(1)CerebrasWeightStreaming:一种新的软件执行架构,首次实现在芯片外存储模型参数的能力,同时提供像片上一样的训练和推理性能。这种新的执行模型分解了计算和参数存储,使得扩展集群大小和速度更加独立灵活,并消除了大型集群往往面临的延迟和内存带宽问题,极大简化工作负载分布模型,使得用户无需更改软件,即可从使用1台CS-2扩展到192台CS-2。(2)CerebrasMemoryX:一种内存扩展技术,为WSE-2提供高达2.4PB的片外高性能存储,能保持媲美片上的性能。借助MemoryX,CS-2可以支持高达120万亿参数的模型。(3)CerebrasSwarmX:是一种高性能、AI优化的通信结构,将片上结构扩展至片外,使Cerebras能够连接多达192台CS-2的1.63亿个AI优化核,协同工作来训练单个神经网络。(4)SelectableSparsity:一种动态稀疏选择技术,使用户能够在模型中选择权重稀疏程度,并直接减少FLOP和解决时间。权重稀疏在机器学习研究领域一直颇具挑战性,因为它在GPU上效率极低。该技术使CS-2能够加速工作,并使用包括非结构化和动态权重稀疏性在内的各种可用稀疏性类型在更短的时间内生成答案。Cerebras首席执行官兼联合创始人AndrewFeldman称这推动了行业的发展。阿贡国家实验室副主任RickStevens亦肯定这一发明,认为这将是我们第一次能够探索大脑规模的模型,为研究和见解开辟广阔的新途径。一、WeightStreaming:存算分离,实现片外存储模型参数使用大型集群解决AI问题的最大挑战之一,是为特定的神经网络设置、配置和优化它们所需的复杂性和时间。软件执行架构CerebrasWeightStreaming恰恰能降低对集群系统编程的难度。WeightStreaming建立在WSE超大尺寸的基础上,其计算和参数存储完全分离。通过与最高配置2.4PB的存储设备MemoryX结合,单台CS-2可支持运行拥有120万亿个参数的模型。参与测试的120万亿参数神经网络由Cerebras内部开发,不是已公开发布的神经网络。在WeightStreaming中,模型权重存在中央芯片外存储位置,流到晶圆片上,用于计算神经网络的每一层。在神经网络训练的delta通道上,梯度从晶圆流到中央存储区MemoryX中用于更新权重。与GPU不同,GPU的片上内存量很小,需要跨多个芯片分区大型模型,而WSE-2足够大,可以适应和执行超大规模的层,而无需传统的块或分区来分解。这种无需分区就能适应片上内存中每个模型层的能力,可以被赋予相同的神经网络工作负载映射,并独立于集群中所有其他CS-2对每个层进行相同的计算。这带来的好处是,用户无需进行任何软件更改,就能很方便地将模型从运行在单台CS-2上,扩展到在任意大小的集群上。也就是说,在大量CS-2系统集群上运行AI模型,编程就像在单台CS-2上运行模型一样。CambrianAI创始人兼首席分析师KarlFreund评价道:“WeightStreaming的执行模型非常简洁、优雅,允许在CS-2集群难以置信的计算资源上进行更简单的工作分配。通过WeightStreaming,Cerebras消除了我们今天在构建和高效使用巨大集群方面所面临的所有复杂性,推动行业向前发展,我认为这将是一场变革之旅。”二、MemoryX:实现百万亿参数模型拥有100万亿个参数的人脑规模级AI模型,大约需要2PB字节的内存才能存储。前文提及模型参数能够在片外存储并高效地流至CS-2,实现接近片上的性能,而存储神经网络参数权重的关键设施,即是CerebrasMemoryX。MemoryX是DRAM和Flash的组合,专为支持大型神经网络运行而设计,同时也包含精确调度和执行权重更新的智能。其架构具有可扩展性,支持从4TB至2.4PB的配置,支持2000亿至120万亿的参数规模。三、SwarmX:几乎线性扩展性能,支持192台CS-2互连虽然一台CS-2机器就可以存储给定层的所有参数,但Cerebras还提议用一种高性能互连结构技术SwarmX,来实现数据并行性。该技术通过将Cerebras的片上结构扩展至片外,扩展了AI集群的边界。从历史上看,更大的AI集群会带来显著的性能和功率损失。在计算方面,性能呈亚线性增长,而功率和成本呈超线性增长。随着越来越多的图形处理器被添加到集群中,每个处理器对解决问题的贡献越来越小。SwarmX结构既做通信,也做计算,能使集群实现接近线性的性能扩展。这意味着如果扩展至16个系统,训练神经网络的速度接近提高16倍。其结构独立于MemoryX进行扩展,每个MemoryX单元可用于任意数量的CS-2。在这种完全分离的模式下,SwarmX结构支持从2台CS-2扩展到最多192台,由于每台CS-2提供85万个AI优化核,因此将支持多达1.63亿个AI优化核的集群。Feldman说,CS-2的利用率要高得多。其他方法的利用率在10%~20%之间,而Cerebras在最大网络上的利用率在70%~80%之间。“今天每个CS2都取代了数百个GPU,我们现在可以用集群方法取代数千个GPU。”四、SelectableSparsity:动态稀疏提升计算效率稀疏性对提高计算效率至为关键。随着AI社区努力应对训练大型模型的成本呈指数级增长,用稀疏性及其他算法技术来减少将模型训练为最先进精度所需的计算FLOP愈发重要。现有稀疏性研究已经能带来10倍的速度提升。为了加速训练,Cerebras提出一种新的稀疏方法SelectableSparsity,来减少找到解决方案所需的计算工作量,从而缩短了应答时间。CerebrasWSE基于一种细粒度的数据流架构,专为稀疏计算而设计,其85万个AI优化核能够单独忽略0,仅对非0数据进行计算。这是其他架构无法做到的。在神经网络中,稀疏有多种类型。稀疏性可以存在于激活和参数中,可以是结构化或非结构化。Cerebras架构特有的数据流调度和巨大的内存带宽,使此类细粒度处理能加速动态稀疏、非结构化稀疏等一切形式的稀疏。结果是,CS-2可以选择和拨出稀疏,以产生特定程度的FLOP减少,从而减少应答时间。结语:新技术组合让集群扩展不再复杂大型集群历来受设置和配置挑战的困扰,准备和优化在大型GPU集群上运行的神经网络需要更多时间。为了在GPU集群上实现合理的利用率,研究人员往往需要人工对模型进行分区、管理内存大小和带宽限制、进行额外的超参数和优化器调优等复杂而重复的操作。而通过将WeightStreaming、MemoryX和SwarmX等技术相结合,Cerebras简化了大型集群的构建过程。它开发了一个全然不同的架构,完全消除了扩展的复杂性。由于WSE-2足够大,无需在多台CS-2上划分神经网络的层,即便是当今最大的网络层也可以映射到单台CS-2。Cerebras集群中的每台CS-2计算机将有相同的软件配置,添加另一台CS-2几乎不会改变任何工作的执行。因此,在数十台CS-2上运行神经网络与在单个系统上运行在研究人员看来是一样的,设置集群就像为单台机器编译工作负载并将相同的映射应用到所需集群大小的所有机器一样简单。总体来说,Cerebras的新技术组合旨在加速运行超大规模AI模型,不过就目前AI发展进程来看,全球能用上这种集群系统的机构预计还很有限。

“广东财经网”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服邮箱1098101642@qq.com,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。

  • 声音提醒
  • 60秒后自动更新
  • 【民政部回应何时恢复婚姻登记】民政部社会事务司二级巡视员杨宗涛表示,婚姻登记场所是人群聚集场所,部分地区暂停婚姻登记工作是对人民群众安全负责。未停止登记的地方推广用电话、网络、qq群预约登记,控制登记人数,分批分段登记,减少人员聚集和在登记机关停留时间。已停止婚姻登记地方将根据当地疫情控制情况逐渐恢复。

    15:54
  • 欧洲央行副行长金多斯:欧洲央行还没有达到逆转利率。宽松政策的副作用更明显了。

    15:54
  • 财经网站Forexlive分析师Justin Low评瑞士1月CPI月率:尽管通胀年率保持稳定,但核心通胀率有所下降,这一点令人更加担忧。这只是进一步巩固了瑞士央行维持现有货币政策不变,并可能在未来寻求更多宽松措施的观点。

    15:54
  • 【武汉两大批发市场商户开业率超过80%】商务部市场建设司司长朱小良10日称,目前武汉生活必需品供应基本正常,除冷鲜肉、鲜叶菜等少数品种存在结构性短缺外,大部分重要生活物资供应充足,未发生明显抢购或脱销断档情况。当地白沙洲和四季美两大批发市场正常营业,商户开业率超过80%,日交易量上升至3000吨以上。(国是直通车)

    15:53
  • 【日本2019年经常项目顺差增长4.4%】日本财务省10日发布的国际收支初步统计报告显示,主要受外国人入境游消费扩大影响,2019年日本经常项目顺差增长4.4%。报告显示,2019年日本经常项目顺差为20.06万亿日元(1美元约合109.8日元)。其中,商品贸易方面,由于液化天然气价格下跌等因素,进口下降5.6%至75.56万亿日元;由于汽车部件及钢铁等产品出口减少,出口下降6.3%至76.12万亿日元。货物贸易顺差减少53.8%,为5536亿日元。(新华社)

    15:53
  • 欧元兑美元EUR/USD短线波动不大,现报1.0952。

    15:53
  • 瑞士1月CPI年率:0.2%,前值:0.2%,预期:0.1%;瑞士1月CPI月率:-0.2%,前值:0%,预期:-0.2%。

    15:52
  • 英镑兑美元GBP/USD短线走低13点,现报1.2890。

    15:52
  • 【宁德时代“供电”国产特斯拉 有望拉低售价20%】全国乘联会秘书长崔东树分析认为,“随着特斯拉国产化率提升和产能爬坡,未来特斯拉国产车型的价格下探空间还是很大的。”他预计今年下半年,国产Model 3车型的售价就有望降至25万元,降幅接近20%。(新京报)

    15:51
  • 【内蒙古:对不裁员或少裁员企业返还上年度50%失业保险费】据内蒙古新型冠状病毒肺炎疫情防控工作指挥部消息,疫情期间,内蒙古对不裁员或少裁员的企业返还上年度实际缴纳失业保险费的50%,对面临暂时性经营困难的中小企业,返还标准提高到上年度6个月企业及其职工缴纳社会保险费的50%。

    15:51
  • 【商务部:2019年服务进出口总额54152.9亿元 同比增长2.8%】商务部新闻发言人表示,2019年,在服务贸易创新发展试点等政策的激励下,我国服务贸易总体保持平稳向上态势,逆差明显下降,结构显著优化,高质量发展成效初步显现。全年服务进出口总额54152.9亿元(人民币,下同),同比增长2.8%。其中,出口总额19564.0亿元,同比增长8.9%;进口总额34588.9亿元,同比减少0.4%。(第一财经)

    15:51
  • 【振华股份:疫情导致下游客户开工推迟 产品库存上升】振华化学公告,公司目前生产经营稳定,所有产能均正常开工,原材料采购能基本满足生产需要,由于疫情导致下游客户开工推迟,公司出货量减少,产品库存有所上升。公司将根据客户需求、疫情及市场变化,适度调整生产经营策略,尽可能保持生产经营的稳定。

    15:50
  • 环旭电子2月10日晚间公告,公司2020年1月合并营业收入为23.27亿元,较去年同期的合并营业收入减少27.83%,较2019年12月合并营业收入环比减少37.23%。

    15:49
  • 精测电子:与京东方集团签订了多份销售合同,合同累计金额达到6.96亿元。

    17:12
  • 华夏银行:银保监会同意本公司在全国银行间债券市场发行不超过100亿元人民币的金融债券,募集资金全部用于绿色信贷。

    17:03