总部位于英国的人工智能芯片公司Graphcore发布了新一代IPU产品bow,这是其向客户交付的第三代IPU系统。
与上一代IPU相比,bowIPU的性能提高了40%,能耗比提高了16%,能效也提高了16%。
值得注意的是,这次bowIPU的性能改进主要不取决于采用更先进的工艺。BowIPU采用与上一代IPU相同的TSMC7Nm,采用与台积电联合开发的先进硅晶片堆叠技术(3D晶片对晶片),以提高性能和能耗比。
作为世界上第一款3Dwow处理器,bow证明了将芯片性能改进的范例从先进制造转移到程向的先进封装的可行性。
新一代IPU的性能提高了40%,价格保持不变
2016年,graphcore创立并创建了一种新型处理器体系结构IPU。由于其在建筑上的创新,它曾被英国半导体之父赫尔曼·豪泽称为计算机史上的第三次革命。
经过六年的发展,graphcore的IPU已在金融、医疗、电信、机器人、云和互联网等领域逐步取得成果。周四,graphcore发布了其第三代产品bowIPU。
根据graphcore,与上一代M2000相比,第三代IPU的性能提高了40%,每瓦性能提高了16%,即能耗比提高了16%。
然而,人工智能芯片的实际性能需要在不同的应用领域进行讨论。因此,graphcore也给出了弓在不同垂直场中的性能。
在图像方面,无论是典型的CNN网络、最近流行的视觉转换器网络,还是深度文本到图像网络,与上一代产品相比,bowIPU的性能提高了30%到40%。在efficientnet-b4中,它接近理论上限。
BERT的训练模式是自然语言领域的经典模式。openai在BERT的基础上,提出对gpt-1、gpt-2和gpt-3进行垂直扩展或水平扩展,通过更深层次的网络和更宽的网络宽度,进一步提高模型的性能和精度。
“我们可以看到,这些型号在我们最新的硬件形式中有很大的性能改进。”graphcore中国工程副总裁兼人工智能算法科学家金琛说。
此外,与IPUpod64相比,bowpod64的吞吐量在计算机视觉的resnet50和eifficientnet-b4训练模型中可以实现34%和39%的性能提升。
在自然语言方面,BERT大Ph1预训练模型和语音识别变压器大训练模型的吞吐量都有36%的提高。
作为英伟达的竞争对手,graphcore自然不会忘记将bowpod16与DGXA100进行比较,实验数据表明,efficientnet-b4的骨干训练在DGXA100上需要70小时,而在bowpod16上只需要14小时左右。
graphcorebowIPU如何实现接近理论极限的性能改进?
5nm不再是首选,先进的包装更具成本效益
在芯片规格方面,BowIPU是世界上第一款基于台积电的3D晶圆对晶圆处理器。它在单个封装中有600多亿个晶体管,人工智能计算的性能为350万亿次,是上一代MK2IPU的1.4倍。
650.9tb内存的吞吐量与上一代保持不变。
“这种变化主要体现在它是一款3D封装处理器,晶体管的规模增加了,计算能力和吞吐量也得到了提高。”graphcore大中华区总裁兼全球首席营收官卢涛表示。在大家关注的过程中,宝IPU延续了上一代台积电7Nm工艺,没有任何变化。
从理论上讲,芯片性能的提高在很大程度上取决于于工艺的工艺进展。然而,随着过程接近物理极限,摩尔定律逐渐失效,行业必须找到一个新的技术方向来延续摩尔定律。其中,3D封装是业界广泛青睐的技术方向。
中国工程院院士、浙江大学微纳电子学院院长吴汉明曾在一次演讲中提到,如果芯片制造和芯片封装相结合,也可以实现65nm工艺,以满足40nm工艺的性能和功耗要求。
议会联盟刚刚证实了吴院士的观点。
卢涛表示,bowIPU产品的性能提升主要来自3D魔兽世界和新Die。
至于为什么我们选择改变封装方式而不是更先进的技术,卢涛说,MK2IPU有594亿个晶体管,约823平方毫米,这已经是7Nm单Die能生产的最精确的芯片。
“当我们评估7Nm、5nm和3nm不同工艺节点的效益时,我们发现将生产工艺从7Nm改进到5nm所带来的效益与从28nm改进到14nm所带来的效益不一样,后者可以带来几十%的效益,但可以降到20%。此时,我们可以通过其他方式和方法获得相同的效益方法。"
通过3D叠加,两个Die弓形IPU增加了晶体管的数量。一个Die(巨像Die)与上一代相同,另一个Die主要用于改善巨像Die之间的电力传输,优化巨像Die的操作节点,从而将其转化为有效的时钟加速。
在与台积电的合作方面,卢涛告诉雷峰,graphcore一年前与台积电在测试芯片上进行了合作,该芯片与台积电关系密切。此外,人工智能处理器本身的规模很大,需要实施一些新技术。从台积电的角度来看,新技术也需要通过有需求的产品来推广。
值得一提的是,尽管包装方法有所改变,但bowIPU是开箱即用的,与上一代产品100%兼容,无需修改任何代码。老用户可以在不进行任何软件调整的情况下提高性能,价格保持不变。
目前,太平洋西北航空公司在bowIPU的基础上,尝试了一些面向计算化学和网络安全应用的变压器模型和图形神经网络,并给出了相对积极的反馈。
继续3D包装,开发超越人脑的超智能机器
bowIPU使用3D封装只是一个起点。面向未来,graphcore正在开发一种超智能机器,可以超越人脑的处理能力。
Graphcore将正在开发的产品命名为“好电脑”。一方面,graphcore希望计算机能对世界产生积极影响,另一方面,graphcore向著名的计算机科学家good致敬。
基于3Dwow,预计未来好的计算机将包含8192个IPU,提供超过10个exa触发器的AI计算能力,实现4PB存储,并帮助开发参数规模超过500万亿的人工智能模型。
根据不同的配置,好电脑的价格将在100万美元到1.5亿美元之间。
卢涛说,开发好的计算机仍将遵循IPU的架构。IPU的存储在处理器中。虽然它不被称为类脑、记忆计算或记忆计算集成,但在某种程度上,IPU的运行机制接近于脑计算的工作原理,只是将计算和存储结合起来。
此外,graphcore还将在软件方面更有效地支持稀疏性,以实现类似大脑的计算。