计世网

DPU挺进数据中心,NVIDIA开启云原生超级计算时代
作者:王莉娟 | 来源:计算机世界
2021-12-21
零信任下,数据中心如何既有无限算力,又有高安全性能?

 

作为信息社会的数字底座,数据中心已经成为推动社会发展的战略性基础设施。如今,完全基于零信任的大环境下,数据中心既要有无限算力,又需要高安全性能。“要应对这样的环境,目前最好的技术就是云原生技术。”NVIDIA网络事业部宋庆春表示。

会计算的Quantum-2平台

上个月初,NVIDIA发布了新一代 InfiniBand 网络平台—— NVIDIA Quantum-2平台 。据介绍,NVIDIA Quantum-2将为云计算提供商和超级计算中心提供极致的性能、广泛的接入能力及强大的安全性。

“Quantum-2平台的推出是基于现在的数据和计算量爆发性增长的现状。 ”宋庆春表示,“传统方式对于云服务的需求主要是灵活便捷,但是当需要大的算力资源时,往往需要利用超算中心的资源。如何把超算的性能和云的灵活性、安全性整合起来提供一种更新的架构支持现有的不断增长的算力业务需求?”宋庆春强调:“需要通过云原生超算技术把超级计算技术带入数据中心中,让数据中心拥有了超算技术的同时,也兼具灵活性和安全性。云原生将会是未来提供算力平台的发展趋势。”

据介绍,NVIDIA Quantum-2平台即400Gbps的InfiniBand网络平台,包括NVIDIA Quantum-2交换机、ConnectX-7网卡、BlueField-3 InfiniBand DPU(数据处理器)和所有支持这种新架构的软件。凭借其云原生技术,NVIDIA Quantum-2提供每秒 400Gb/s 的高吞吐量和先进的多租户支持功能,能够满足众多用户的需求。

据悉,当超级计算机和云原生超算系统要实现高性能时,需要所有的资源都参与到计算里面来。Quantum-2的目标是实现数据在哪里,计算就在那里。基于上述优势,Quantum-2可以帮助企业实现对AI业务一个至关重要的技术——网络计算技术(In-Network Computing)。

NVIDIA 网络事业部高级副总裁 Gilad Shainer曾表示:“如今,超级计算中心和公有云的诉求正在走向融合 —— 它们必须为新一代高新能计算(HPC)、AI 和数据分析的应用提供尽可能高的性能,同时还应安全隔离应用,并响应用户对流量的不同需求。凭借 NVIDIA Quantum-2 InfiniBand 平台,现代数据中心已经可以将这一远景变为现实。”

3U一体赋能无限算力

伴随着计算力的提升,尤其是异构计算的发展,近些年,GPU加速计算成为了人工智能、深度学习和大数据分析应用的关键。大数据时代,信息和数据呈现爆发式增长的趋势,DPU成为数据中心加速计算模型中继CPU、GPU之外的的第三个计算单元。

在NVIDIA GTC 2021峰会上,NVIDIA正式发布了新一代数据处理器NVIDIA BlueField-3 DPU,为数据中心提供强大的软件定义网络、存储和网络安全加速功能。NVIDIA的BlueField DPU为3U一体架构奠定了基础。

据介绍,使用BlueField DPU后,可以将所有的CPU资源用于运行业务应用程序,不再需要部分CPU资源来支持SDN。除此之外,还能够使扩展能力提升,云原生应用程序是高度分布式的应用程序,带来数据中心内密集的“东西向”流量,BlueField DPU 可为扩展应用程序提供高吞吐量、低延迟的网络环境。

另外,云数据中心的多租户和基础设施弹性会带来隐私和机密性风险,而 BlueField DPU可很好地应对这些风险。BlueField DPU还可提供稳健而强大的网络,用于应对 GPU 加速计算在云、企业和边缘领域中不断增强的广泛应用的需求。

宋庆春表示:“DPU的出现弥补了数据中心中基础设施加速能力不足的问题,实现了DPU、GPU、CPU 3U一体新型数据中心架构,让数据中心成为新的计算单元。给了我们一个优化算力资源时,从数据中心这种更高层次、更高粒度、更大空间里来进行优化的一个思考空间,3U一体已经成为数据中心的一个必然的架构。”

零信任挑战

目前,企业面临着数据量越来越大,数据传输速度越来越快。各种异构数据频繁出现,非结构化数据的量远远大于结构化数据,在处理非结构化数据时,复杂程度会远远大于处理结构化数据。再加上需要做跨平台的整合,各种模型迭代、计算迭代、平台迭代越来越快,网络安全已经成为数据安全的最大的威胁。

 

如何解决此问题呢?为助力企业应对日渐复杂的威胁,NVIDIA 发布了一款零信任网络安全平台。利用该平台的一整套功能,网络安全行业可构建实时保护企业数据中心的解决方案。零信任安全平台结合了三种技术 ——  NVIDIA BlueField DPU、NVIDIA DOCA 和 NVIDIA Morpheus 网络安全人工智能框架。

据介绍,NVIDIA DOCA 1.2是专门面向零信任安全框架的SDK,在DOCA1.2中提供了面向Load Balancers、DPI、 IPS、IDS、下一代防火墙等安全业务的API,设计安全软件的用户或者安全软件的供应商,可以直接通过DOCA API调用在DPU里的硬件加速引擎,让数据中心更安全。

此外,NVIDIA Morpheus 是NVIDIA在DPU+DOCA安全数据中心里的一个深度学习网络安全框架。最新版本包括一个新的工作流程,该工作流程使用无监督学习来创建数字指纹,以检测网络入侵者何时接管用户帐户或机器。NVIDIA Morpheus可加速数据科学处理、通过NVIDIA AI 训练生成预训练模型或推理模型,并将新的Policy下发给NVIDIA DPU,使企业能够同时检查其数据中心网络中的所有遥测数据。

宋庆春指出:“数据中心对算力的需求变得越来越大,大规模的模型层出不穷,要运行大的模型需要很多的GPU来并行处理,数据并行和模型并行在未来工作训练中同时使用将成为一个趋势。在这种大规模使用场景下面,如何既保持很高的算力,又能够在多租户情况下保证训练性能,保证业务的安全性?云原生技术对这样一个趋势是必不可少的。”

责任编辑:王莉娟