soword科技言
永久公益免费API接口
提供永久免费的API接口,查看更多API接口,如果您有其他免费API资源,请联系我们,造福人类。
提供商务开发:小程序,系统,APP
定制开发,免费评估,免费咨询,价格便宜,售后保障,前往开发服务中心联系开发客服中心
大脑为120万亿参数神经网络时代做准备

Cerberbas在其先前发布的CS-2人工智能计算机上添加了一款新的交换机产品SwarmX,该产品既可以进行路由,也可以进行计算,以及一台包含2.4 PB DRAM和NAND的内存计算机,被称为MemoryX。

人工智能的深度学习形式正在产生具有数万亿个神经权重或参数的神经网络,而不断扩大的规模给用于开发此类神经网络的硬件和软件带来了特殊问题

人工智能系统制造商大脑系统公司的联合创始人兼首席执行官安德鲁·费尔德曼(Andrew Feldman)在通过Zoom接受ZDNet采访时总结了神经网络的最新历史。他说:“两年内,模型变大了一千倍,需要的计算量也增加了一千倍。”

“这是一个艰难的轨迹,”费尔德曼说

Feldman的公司本周将在一年一度的高级计算热芯片计算机芯片大会上推出新的计算机。会议实际上是在今年举行的。大脑发布了一份新闻稿,宣布了新的计算机。

大脑与人工智能领导者Nvidia以及其他人工智能初创公司(如Graphcore和SambaNova Systems)竞争,其目标是在培训日益庞大的网络时,在性能上领先。训练是开发神经网络程序的阶段,通过将其置于大量数据中并调整神经网络权重,直到它们产生尽可能高的精度

此外:“我们可以在任何数量的GPU或CPU都无法实现的时间内解决这个问题,”启动公司Cerbinas告诉超级计算会议说,“神经网络的规模一直在稳步增长,这已经不是什么秘密了。”。在过去的一年中,以神经权重衡量的世界上最大的神经网络——OpenAI的GPT-3自然语言处理程序,拥有1750亿权重,被谷歌的1.6万亿参数模型所取代,开关变压器。

如此庞大的模型遇到了问题,因为它们超出了单个计算机系统的范围。单个GPU的内存约为16 GB,可能会被GPT-3等型号所需的数百TB内存所淹没。因此,系统群集变得至关重要。

如何群集成为关键问题,因为每台机器都必须保持繁忙状态,否则利用率会下降。例如,今年,Nvidia、斯坦福和微软创建了一个具有1万亿参数的GPT-3版本,并将其扩展到3072个GPU。但是利用率,也就是每秒的操作数,仅为机器理论上应该能够达到的峰值操作数的52%

因此,费尔德曼和塞伯拉斯着手解决的问题是如何处理越来越大的网络,使每个计算元素得到更好的利用,从而提高性能,进而提高能源利用率。

新型计算机包括三个互操作部分。一个是该公司的计算机更新,其中包含其晶圆级引擎或WSE芯片,这是有史以来最大的芯片。该系统称为CS-2。WSE2和CS-2均于4月份推出

另外:该公司表示,大脑继续在高端计算领域“绝对统治”,拥有世界上最大的芯片二点oh

AI Natalia Vassilieva的大脑系统产品经理持有该公司的WSE-2,这是一种测量12英寸半导体晶片几乎整个表面的单一芯片。该芯片于今年4月首次亮相,是该公司第二代专用人工智能计算机CS-2的核心部件。

本周的新元素是一个机架式内存盒,名为MemoryX,包含2.4 PB的DRAM和NAND闪存,用于存储神经网络的所有权重。第三个盒子是所谓的织物机,它将CS-2连接到内存,称为SwarmX。该结构可以将多达192台CS-2机器连接到MemoryX,以构建在单个大型神经网络上协同工作的集群。

大型问题的并行处理通常有两种,数据并行或模型并行

到目前为止,大脑已经开发了模型并行性,即神经网络层分布在大规模芯片的不同部分,因此层及其权重并行运行。大脑软件自动决定如何将层分配到芯片区域,有些层可以获得比其他层更多的芯片区域。

神经权重或参数是矩阵,通常由每个权重四个字节表示,因此权重存储基本上是权重总数的四倍。对于具有1750亿个参数的GPT-3,整个神经网络的总面积将为700GB。

单个CS-1可以容纳小型或中型网络的所有参数,或大型模型(如GPT-3)的所有给定层,由于采用了18G的大型片上SRAM,因此无需向外翻页到外部存储器

“GPT-3中最大的层约为12000 x 48000个元素,”费尔德曼在谈到单个权重矩阵的尺寸时说“在新的WSE2芯片中,一台CS-2机器可以保存120万亿参数神经网络给定层使用的所有参数,该芯片将SRAM内存提升到40千兆字节。”在hot chips,我们显示的矩阵倍数为48000 x 48000,是GPT-3的两倍,”他指出

当与MemoryX结合使用时,在流式方法中,单个CS-2可以处理所有模型权重,因为它们一次一层流到机器上

该公司喜欢将其称为“大脑规模计算”,类比于人脑中的100万亿突触。

本例中的120万亿参数神经网络是一种合成神经网络d由大脑内部进行测试,而不是公布的神经网络

尽管CS-2可以在一台机器上保存所有这些层参数,但大脑现在提供使用MemoryX来实现数据并行。数据并行性与模型并行性相反,因为每台机器都有相同的权重集,但要处理的数据片段不同

为了实现数据并行性,大脑将所有权重保留在内存中,然后有选择地将这些权重广播到CS-2,其中只存储单个数据片段。

每个CS-2在接收到流权重时,将这些权重应用到输入数据,然后将结果传递给激活函数,这是一种也存储在芯片上的过滤器,它会检查加权输入是否达到阈值。

所有这些的最终结果是梯度,对权重进行一次小的调整,然后将其发送回MemoryX框,用于更新权重的主列表。SwarmX完成了MemoryX和CS-2之间的所有来回路由,但它还做了更多的事情

“SwarmX同时进行通信和计算,”费尔德曼解释道SwarmX结构结合了梯度,称为减少,这意味着它可以像平均值一样进行操作。”

结果,费尔德曼说,与竞争对手相比,CS-2的利用率要高得多,即使是在今天的生产神经网络(如GPT-3)上。

“其他人的利用率在10%或20%,但我们看到最大网络的利用率在70%到80%之间,这是前所未闻的,”费尔德曼说。添加系统提供了他所谓的“线性性能缩放”,这意味着,如果添加16个系统,训练神经网络的速度将提高16倍

因此,他说,“如今,每个CS2取代了数百个GPU,而我们现在可以用集群方法取代数千个GPU。”

Cerbinas声称,集群机器会产生线性扩展,这意味着每增加一台机器,训练网络的速度提高了相应的倍数。

并行性带来了额外的好处,塞伯拉斯说,这就是所谓的稀疏性

从一开始,大脑就认为Nvidia GPU由于缺乏内存而效率低下。GPU必须进入主内存DRAM,这很昂贵,因此它以称为批处理的集合方式获取数据。但这意味着GPU可能会对零值数据进行操作,这是一种浪费。这也意味着在等待每批数据处理时,权重不会更新得那么频繁。

WSE,因为它有大量的片上SRAM,能够提取单个数据样本,一批一批,并在整个芯片上并行操作许多这样的单个样本。对于每个单独的样本,同样,通过快速记忆,可以只处理特定的权重,并有选择地、频繁地更新它们

该公司在正式研究和AI Natalia Vassilieva产品经理的博客文章中辩称,稀疏能带来各种好处。它有助于更有效地使用内存,并允许动态并行化,这意味着反向传播(通过神经权重的反向传递)可以被压缩到一个有效的管道中,进一步并行化事物并加快训练。这一想法似乎对该领域的研究越来越感兴趣。

当转向集群系统时,大脑再次提出了稀疏方法。只有一些重量需要从MemoryX流到每个CS-2,只有一些梯度需要发送回MemoryX。

换句话说,大脑声称其系统区域网络由计算机、交换机和内存存储组成,其行为类似于单个WSE芯片上的稀疏计算的大型版本。

结合流媒体方法,CS-2中的稀疏性,以及MemoryX和SwarmX,具有灵活、动态的组件,该公司认为这是其他机器无法比拟的

“每一层都可以有一个不同的稀疏掩模,”费尔德曼说,“我们可以给每个历元提供不同的稀疏度,在训练过程中,我们可以改变稀疏度,包括可以利用训练过程中学到的东西的稀疏度,称为动态稀疏度——这是其他人无法做到的

费尔德曼说,为数据并行性增加稀疏性可以在训练大型网络时带来一个数量级的速度。

大脑提倡大量灵活地使用称为稀疏性的技术,以带来额外的性能优势。

当然,销售更多CS-2机器以及新设备的艺术,这将取决于市场是否准备好了数万亿或数十万亿权重的神经网络。CS-2和其他组件预计将在今年第四季度发货,因此,几个月后

现有客户似乎感兴趣。阿贡国家实验室是美国能源部九大超级计算中心之一,从一开始就使用CS-1系统。尽管该实验室尚未使用CS-2或其他组件,但研究人员对此非常热情

“过去几年向我们表明,对于NLP(自然语言处理)模型,洞察与参数直接相关——参数越多,结果越好,”Argonne副总监Rick Stevens在一份准备好的声明中说

< P >席:“我们在几个月内通常会采取药物开发过程来做”:美国能源部的阿贡实验室与CavID-19竞争AI < P/> < P> > Cerebras的发明,这将提供100x的参数容量增加,可能有可能改变这个行业。“史蒂文斯说。这是我们第一次能够探索大脑大小的模型,为研究和洞察开辟了广阔的新途径。”

当被问及是否适合使用这种马力时,费尔德曼观察到,“没有人会在一月份把matzah放到货架上,”指的是传统的无酵面包,只在需要时才储存,就在春天的逾越节前夕

费尔德曼说,大规模人工智能机器集群的时代已经到来

“这不是一月份的马特扎,”他说

Synopsys首席执行官de Geus说,人工智能将有助于以人类不敢采用的方式设计芯片英特尔建筑师科杜里说,每一块芯片都将是神经网络处理器,您同意使用条款并确认隐私政策中概述的数据实践。

您还将免费订阅ZDNet的今日技术更新和ZDNet公告时事通讯。您可以随时取消订阅这些时事通讯。

您同意接收CBS公司系列的更新、提醒和促销活动,包括ZDNet的今日技术更新和ZDNet公告时事通讯。您可以随时取消订阅


2023-03-22 10:04:41

新人小程序+APP定制199元起


发放福利,助力中小企业发展,真正在互联网中受益

点击询问定制

广告服务展示