为AI而生,IPU触CPU GPU所不及

作者:衎一 | 来源:计算机世界

2020-06-17

第三代AI处理器架构IPU一经面世，就受到了各行各业的关注与肯定。Graphcore IPU拥有236亿个晶体管，是世界上最复杂的芯片处理器。

近年来，随着AI的应用场景不断增加，传统的CPU和GPU已无法满足AI所需。由于AI的底层是以计算图作为表征的，所以企业若想提升算力则需要一种全新的处理器架构。当前，英国初创芯片公司Graphcore针对计算图处理设计推出的IPU（Intelligence Processing Unit）处理器架构，正逐渐进入到AI广泛的应用场景之中。革命性的全新架构，让IPU不负“为AI而生”之名。

AI未来可期，IPU生逢其时

“当前，全球人工智能产业并未走向低潮，相反会有更大发展。与自然语言处理相关应用的兴起会催生多种应用场景，并在算力方面产生更多需求。”Graphcore高级副总裁兼中国区总经理卢涛在日前举办的媒体分享会上对记者说。

Graphcore高级副总裁兼中国区总经理卢涛

从2016年算起，AI算法模型从ResNet 50的2500万个参数发展到2018年BERT-Large的3.3亿个，再到2019年GPT2的15.5亿个，这是一个惊人的增长速度。鉴于现在的密集计算并不是可持续的计算，那么要从15.5亿个参数规模扩展到10000亿的话，这种指数级的突破就需要一种全新的方法来进行AI计算。Graphcore应运而生。

Graphcore成立于2016年，是一家专注于机器智能、同时也代表着全新计算负载的芯片制造公司，其包括IPU在内的产品研发擅长大规模并行计算、稀疏的数据结构、低精度计算、数据参数复用以及静态图结构。

IPU是为机器智能专门设计的完全不同的处理器架构，并在现有和下一代的模型上其性能表现均领先于GPU：在自然语言处理方面的速度能够提升20%至50%；在图像分类方面，与V100相比，IPU能够达到6倍的吞吐量且时延更低；在金融模型方面，IPU的训练速度能够提高26倍以上。目前，IPU在云和本地自建数据中心的服务器上已开始启用，实现了量产。

这个已经实现量产的产品为GC2处理器，其采用了16纳米TSMC的工艺，片内有1216个IPU-Tiles，每个核心（Tile）内有独立的IPU核作为计算，包含处理器之内的内存（In-Processor-Memory），整个GC2共有7296个线程支持并行程序的运行。

该GC2处理器可以称得上是当前世界上最复杂的芯片处理器，其拥有236亿个晶体管，包含高达 300MB 的处理器上存储，在120瓦的功耗下可以达到125TFlops的混合精度。另外内存的带宽可达45 TB/s、片上交换速率是8 TB/s，片间IPU-Links是2.5 TB/s。

Graphcore中国销售总监朱江向记者介绍，Graphcore采用了构建大规模数据中心集群的BSP（Bulk Synchronous Parallel）技术来解决并行硬件的高效编程问题，目前谷歌、Facebook、百度等大规模数据中心都在应用这种技术。IPU作为世界上第一款BSP处理器，通过硬件可以支持BSP协议，并通过BSP协议把整个计算逻辑分成了计算、同步和交换三部分，这对软件工程师来说非常易于编程。

Graphcore中国销售总监朱江

同时，Graphcore也推出了PopVision™ Graph Analyser分析工具。当开发者、研究者在使用IPU进行编程时，可以通过PopVision可视化的图形展示工具来分析软件的运行情况、调试效率。

目前基于IPU的应用已覆盖机器学习的各个应用领域，包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型。在自然语言处理、计算机视觉类应用和概率类算法中，Graphcore IPU都具备全方位的优势。

创新产品带动时代转变，IPU屡受行业专家和IT巨头认可

创新、优质、可能颠覆时代的产品，当然会备受瞩目和认可。英国半导体之父、Arm的联合创始人Hermann爵士曾给予IPU这样的评价：“在计算机历史上只发生过三次革命，一次是70年代的CPU，第二次是90年代的GPU，而Graphcore就是第三次革命。”这里的第三次革命指的就是Graphcore提出的为AI计算而生的IPU。人工智能教父Geoff Hinton教授对于IPU也指出：“我们需要不同类型的计算机来处理一些新的机器学习的系统。”

在刚刚过去的5月，Graphcore收获颇丰。5月12日，在OCP Global Summit上，阿里巴巴异构计算首席科学家张伟丰博士宣布，Graphcore支持ODLA的接口标准。ODLA是Open Deep Learning API，通过这种结构，阿里巴巴试图为底层的架构抽象出一个统一的API。Graphcore目前已能够适配和支持ODLA。

5月20日，在百度Wave Summit 2020上，百度集团副总裁吴甜女士宣布Graphcore成为飞桨硬件生态圈的创始成员之一。百度飞桨是中国首个开源开放、功能完备的产业级深度学习平台，开发者数量超190万，服务企业数量达8.4万家，创建了超23万个模型。百度飞桨硬件生态圈的初始成员共有13家，涵盖云端和设备端的不同硬件厂商。Graphcore作为百度飞桨在云端训练和推理的重要合作伙伴，将通过云端和数据中心的IPU技术帮助开发者实现AI创新模型的大幅加速。

5月27日，在英国Intelligent Health 2020峰会上，微软机器学习科学家展示了其对Graphcore芯片的应用。科学家使SONIC神经网络在Graphcore芯片上运行，并将其用于识别新冠肺炎患者的胸透图像。运行结果显示，Graphcore芯片可在30分钟内完成传统GPU芯片5个小时的训练工作量。该科学家称，运行结果显示SONIC神经网络和Graphcore芯片之间形成了非常强大的协同作用。

垂直行业应用广泛，未来产品本地化定制

Graphcore的产品除了专为AI应用处理设计的IPU处理器，还包括在IPU处理器上架构的Poplar软件栈与开发工具以及通过本地或云来访问渠道合作伙伴的IPU系统解决方案。

Poplar软件栈是架构在机器学习的框架软件和硬件之间的、基于计算图的整套工具链和库，具有开放且可扩展、直接部署、机器学习框架支持、标准生态支持等特性。Poplar支持最主要的三个Linux发行版，即ubuntu、RedHat Enterprise Linux、CentOS。

目前，Graphcore的IPU已在金融、医疗、电信、互联网等垂直领域的AI场景中得到广泛应用。

在金融领域，IPU表现出了显著优势。举例而言，在算法交易领域，交易员希望能够快速准确地预测市场活动，而现有的模型和硬件工具无法完全满足此类要求，因此交易员会转向下一代更新的模型。在此过程中，IPU可以帮助金融企业快速实现这些模型的训练和部署。此外，IPU在投资管理、风险管理及诈骗识别等领域也得到广泛应用。

在医疗和生命科学领域，IPU被用于新药发现、医学图像、医学研究、精准医疗方面的工作。医学研究和新药发现工作会存在大量复杂实验，而应用IPU可以加快相关工作进度，对于新药的推出及医学成果的发现具有非常重要的意义。

电信领域的智慧网络、5G创新、预测性维护和客户体验领域也在应用IPU的创新技术和能力。例如在5G领域，网络切片和资源管理均是行业特色，需要企业大量学习未被标记过的数据，属于强化学习范畴。IPU在强化学习方面有着明显优势，在训练方面的吞吐量能够提高至V100的13倍之多。

IPU还在机器人领域有所作为。Graphcore与伦敦帝国理工学院已达成合作，通过应用空间AI、空间及时定位、地图构建等技术，帮助机器人完成复杂动作、实现更高级的功能。这些工作需要稀疏概率、图形的几何推理以及神经网络计算能力。在这些场景中，通信和计算同样重要，并且需要应用低时延、高功耗等在机器人领域较为关注的功能。

事实上，IPU在云、数据中心和互联网方面也有应用，这同时也是Graphcore从早期到现在一直重点推广的领域。比如，微软在Azure公有云上开放IPU的服务、欧洲搜索引擎公司Qwant使用IPU进行搜图识别。

“Graphcore未来推进策略以训练和推理并行为主，并会更加聚焦那些对精度要求高、时延要求低、吞吐量要求高的场景。”卢涛在谈到Graphcore的本地化产品和服务时对记者表示，Graphcore会根据中国市场需求对产品进行定制化演进。具体来讲，中国团队会根据中国本地的AI应用特点和需求，把AI算法模型在IPU上进行落地，并根据本地客户对于AI学习框架平台软件稳定性方面的需求，进行功能性开发与加强。

作为一家人工智能芯片初创公司，Graphcore虽年轻，却在做一些世界知名科技公司没有尝试和突破的事情，相信未来几年，Graphcore会继续扩张创新业务、解决技术瓶颈问题，并在新一代IPU产品中得以呈现，让更多企业关注Graphcore。截止目前，Graphcore共融资超过4.5亿美金，全球员工约450人。

责任编辑：张旖旎

为AI而生,IPU触CPU GPU所不及

专题

最新发布