计世网

中国进入科研黄金时代,通用超算云服务填补算力缺口
2021-01-19
北京超级云计算中心总经理吴迪表示,北京超级云计算中心'的使命就是更好的服务于通用超算市场。

 


  “自主创新”是十四五规划献策中呼声最高的关键词之一。而在十四五规划中,也提出要坚持创新在我国现代化建设全局中的核心地位,把科技自立自强作为国家发展的战略支撑。尤其是十九届五中全会,审议通过了将实现关键核心技术重大突破,进入创新型国家前列列为国家二〇三五年远景目标。在加强自主创新中,科研R&D经费投入是重要的保障,我国在2018年就已经实现R&D经费总量全球第二,而2019年全国R&D经费投入同比增长12.5%,占GDP的2.23%。

  当前,无论是从十四五规划对自主创新和自主科研的重视,还是全国R&D经费历年增长的投入来看,我国都进入到了科研的“黄金时代”。对于科研来说,超级计算机一直起着关键作用。在2020年6月发布的2020全球超级计算机TOP500中,45%的超级计算机来自中国,而未来,中国自主研发的天河三号超级计算机更是将目标直指E级超算。然而,这些作为国家战略资源的超级计算机虽然在国家重大科研应用方面发挥了重要作用,但是在面向中小规模海量运算的通用和商业计算场景来说就显得大材小用。


  “尖端超算是'高精尖',服务于万核以上的应用,难以走进'寻常百姓家'”,北京超级云计算中心总经理吴迪在谈到超算的应用之变时表示,“'北京超级云计算中心'的使命就是更好的服务于通用超算市场,即万核以下计算用户的需求,包括科研、教育、工程设计类等,提高科研效率、降低研发成本,与尖端超算形成互补,让各行各业大中小用户都能用上超算,推动中国数字化经济转型与升级。”

  在2020年11月发布的2020中国高性能计算机性能排行榜TOP 100中,北京超级云计算中心A分区荣获TOP 100排行榜第三名,通用CPU算力第一。该中心专注于通用超算市场,特别是通过与戴尔科技等知名IT硬件供应商的紧密合作,把传统超算三到五年的建设周期缩短到三周,满足海量用户对中小微超算的需求,填补社会算力缺口。

  填补通用算力缺口

  当前,全社会都在加大对于自主创新和研发经费的投入。根据统计,在规模以上工业企业中,电气机械和器材制造业、汽车制造业、医药制造业、化学原料与化学制品制造业等9个行业的2019年R&D经费投入都超过了500亿元;北京、广东、江苏、山东、浙江、上海等6省市的2019年R&D经费投入都超过了1,000亿元。

  不过,各大企业和城市对于R&D科研经费的投入,很大一部分都投向了服务器等硬件基础设施,这就造成了R&D科研经费的利用效率不高。北京超级云计算中心总经理吴迪介绍,传统的超算中心一般都是由政府牵头和投资建设,并且由于其特殊性,这种投入往往是不计成本和回报的。正是因为如此,往往动辄几十亿元的资金投入,却面临缺少市场应用的窘境,并且,大型超算中心还存在着建设周期长,一旦建成也往往意味着机器设备还需要二次更新才能继续提供服务。

  尖端超算服务的用户大多为行业专家、学者,而通用超算市场中小用户,包括科研、教育、中小企业都存在大量的算力需求,面对性价比、资源使用的灵活性和服务质量等诉求,就需要具备市场化、商业化服务能力的超算中心填补通用算力的缺口,这就是北京超级云计算中心的核心价值。

  北京超级云计算中心成立于2011年11月,由中国科学院和北京市政府共建,依托中国科学院计算机网络信息中心建设,由北京北龙超级云计算有限责任公司运营。北京超算中心以立足北京、辐射全国、构建国内领先、国际一流的信息化基础设施及公共服务平台为总目标,面向科学计算、工业仿真、气象海洋、新能源、生物医药、人工智能等重点行业应用领域,随需提供超级云计算服务。

  目前,北京超级云计算中心总核心数共27万核,服务用户数超过30,000家,可根据用户的计算量、应用程序及业务场景,提供随需供应、不排队、省心省时的高品质VIP计算服务。吴迪强调,北京超级云计算中心在中国率先推出了超算的云服务化,特别是在疫情期间帮助很多高校和研究所及时完成了科研任务。

  北京超级云计算中心的扩容也不像传统超算那样,而是根据用户需求配备多种型号的计算资源,最核心的A区与戴尔科技合作,采用了“第二代AMD EPYC(霄龙)”处理器,满足海量日常科研用户和企业用户的计算需求,并可随需扩容。吴迪强调,北京超级云计算中心配置了多个分区,包括最新型号的硬件设备,从而可以更好的适配不同用户的需求,提高科研效率。

  通用算力背后的技术布局

  北京超级云计算中心坚持以用户需求为导向,提供“随需供应,动态扩容”的计算资源和高质量云化计算服务。截止2020年10月,北京超级云计算中心通用超算算力超过10PFlops,在2020中国高性能计算机性能TOP100排名第三,通用CPU算力市场排名第一。北京超级云计算中心于2018年发布超级云计算服务平台--中国科技云·超算云,2019年启动超级云计算建设模式,2020年实现10PFlops算力。


(北京超级云计算中心A分区)

  面向不同类型的用户需求,北京超级云计算中心提供不同的计算资源,目前最大的是A分区,同时还有按核调度的M分区、T分区,存储性能加强的IO分区,面向人工智能用户的17区、19区等,分别分布在北京、辽宁、江西、宁夏、湖北和深圳等地,这既是出于成本的考虑,也是出于就近服务用户的考虑。

  虽然在北上广等地建设数据中心的难度大成本高,但这里也是国内通用算力的主要市场,需要就近服务这些地区的用户;而在中西部地区布局数据中心,既可以优化成本结构,又可以就近服务当地及周边地区的用户。例如,北上广地区的国家超算中心一年的电费就可能达三四千万甚至更高,而将部分数据中心部署在西部,就可以降低一半甚至更多的电费。北京超级云计算中心以市场化运营,最终的目标是降低成本并回馈客户,让客户能够使用普惠的算力,最终应用到产品研发和科学研究,形成良性循环。

  CPU型号的选择也遵循同样的原则--围绕客户需求。尖端超算建设时考虑的是各方面的均衡,因为超级计算机对于资源的需求是多方面的,包括计算、访存、通信和I/O等都要非常出众。而面向广大中小用户时,应用特点是多样性的,用户应用不会同时要求很强的CPU、网络和访存等,例如:计算物理应用为计算密集型,也就是要求CPU扩展性和网络,这种情况下只需要CPU主频适中并搭配高速互联网络即可;但结构强度分析应用为访存密集型,进行有限元分析需要大内存、胖节点的机器,这就需要在相应分区里设置大内存节点。


(北京超级云计算中心A区拓扑图)

  根据不同的用户需求、设置不同计算资源、满足特定用户的需求,这就演化出了北京超级云计算中心A分区,A分区采用了基于EPYC Rome处理器的Dell EMC PowerEdge服务器,可提供一个节点两个CPU 64核,对于计算物理第一性原理、气动分析等用户很适合,可以用几个节点组成一个小规模或中等规模的计算任务。而有些用户作业不需要64核,但需要海量作业,例如天文的蒙特卡罗模拟只需要单核计算,但完成一批任务需要成百上千个核,这种海量单核计算就需要定制集群,由此引出了M分区和T分区。

  北京超级云计算中心CTO郭宇表示,目前北京超级云计算中心A分区为3,000个节点、6,000个CPU的规模,以达到规模、效率和成本的平衡,接下来我们会不断地扩容新的分区,以满足不同用户的需求。目前已完成M分区、T分区以及A2分区的建设,A3分区也正在快速建设中,最终的目标就是保障充沛的计算资源,让用户无需排队、随时都有可用的计算资源。而为了保证用户对后端计算资源的无感知--只要将作业提交上来就无需考虑作业是在华北区或是华东区完成,北京超级云计算中心提供了一整套的作业自动迁移、自动资源匹配等自动运维系统,从而在资源切换上实现了无感知的用户体验。

  北京超级云计算中心的算力资源采用超算集群架构,可以提供超过5,000台物理服务器的计算资源,累计超过27万CPU核心;涵盖PB级大容量并行文件系统,全线速、无阻塞的专用计算网络环境,提升了计算速度和扩展性;同时配备有完整、高效、专业的基础软件,包括操作系统、并行编译开发环境等,支持CPU和加速卡的多种编译环境及应用,包括编译器、调试器、MPI并行开发环境及数学库等。北京超级云计算中心覆盖各种级别的任务队列管理和调度功能,根据用户需求及应用场景设置不同的优先级别,从而保障关键业务的正常运行。

  TOP 3只是一个开始

  北京超级云计算中心A分区成功荣获2020中国高性能计算机性能TOP100排名第三、通用CPU算力第一,这对于北京超级云计算中心以及中国的通用超算产业来说,只是一个新的开始。至此,中国的超算逐渐形成了三类市场:万核以上的尖端超算,千核左右的通用超算以及单核到千核的行业超算。其中,通用超算以北京超级云计算中心为代表,行业超算以公有云的超算服务为代表。


  吴迪强调,对于北京超级云计算中心来说,其初心并不是为了获得排名,作为一家市场化运营超算中心的最终目的还是提升行业效率、降低行业成本。企业和科技机构逐步从自建转为购买超级云计算服务模式,一方面可以节省成本,另一方面可以获得更多算力,同时也无需维护系统,从而把更多时间和精力用于科研工作。北京超级云计算中心不仅具有强大的计算能力、丰富的软件资源、可信赖的支持团队、定制化的行业解决方案,可提供随需而用的超算资源,减少计算任务排队,适应多学科应用需求,降低用户资源使用成本,并为大规模复杂技术和商业应用实现提供专业完整的解决方案,同时还提供一对一专属微信群、7×24小时在线服务和5分钟快速响应机制。

  对于一个100节点的中型超算数据中心来说,从项目申报、审批一直到项目建设完成,通常的建设周期是三到五年。而北京超级云计算中心则将之前的建设周期,缩短到一个季度,再进一步缩短到3周。传统的尖端超算采用的是针对专门应用而研制的计算机,通用超算和行业超算则采用市面已有标准化产品进行搭建,才可能实现灵活、快速、敏捷的云计算服务模式。而与公有云服务商提供的超算服务有所不同,通用超算对硬件的要求更高。

  郭宇介绍,一般公有云厂商的工作负载峰值、谷值波动非常大,机器运行负载平均是在30%或40%左右;而通用超算的机器一定是7×24小时运行,CPU负载一定达到100%。这造成了对于超算服务器的稳定性、可靠性的高要求,必须要能够持续24小时长时间运行,一旦机器出故障或是CPU、内存有问题,对科研成果造成的损失是无法衡量的。北京超级云计算中心进行了一系列测试,最后选择与戴尔科技集团合作,是因为戴尔易安信的设备在各方面表现十分均衡,包括稳定性以及与AMD芯片优势的整合等,更重要的是戴尔科技集团供应链体系成熟,能够随时解决中心对于备件的需求。


(Dell PowerEdge C6525)

  北京超级云计算中心希望获得更快的建设周期,而戴尔科技集团良好的供应链体系能够降低北京超级云计算中心的运营成本。实际上,北京超级云计算中心长期以来与戴尔科技集团保持着紧密的合作关系,除了A分区外,其他部分分区也是与戴尔科技集团合作完成的。特别是戴尔科技通过与服务器产业链上下游的良好供应链关系,例如在AMD等发布新一代芯片时就能马上提供最新、最优的样机产品,这让北京超级云计算中心能够在第一时间用上最新的技术与产品。除了服务器外,北京超级云计算中心也广泛采用了戴尔科技集团的网络、存储等多种产品。郭宇还表示,戴尔科技对于数据中心的维护考虑周到,提供了iDRAC等专门的管理工具,对降低维护成本、提高效率都很有帮助。

  戴尔科技集团高性能计算实验室主任、高性能计算方案架构师凌巍才介绍,戴尔科技的iDRAC软件产品可以远程对服务器进行访问、管理、开机等底层操作,具体实现方法是每台服务器都有一个iDRAC的IP地址;而另一个软件产品OME(OpenManage Enterprise)则搭建了一个Web控制界面,管理员可直接在界面上访问每台服务,而不用一一登录到每一台服务器上,而且,这两款软件产品都有免费提供给客户的版本。

  通过与戴尔科技这样具有成熟硬件供应链体系,以及完整科技产品与技术的供应商合作,北京超级云计算中心得以将通用超算的算力普惠给更多的中小企业和科研机构。

  金风科技作为中国风电事业蓬勃发展的推动者,对于超算的需求体现在三个方面:首先,要解决风力发电机叶片的造型设计包括扭向和角度;其次,是风机的选址,要根据风能资源情况以及当地气象一整年的观测数据进行推演;第三,是风力发电厂投产后,向国家电网上报发电量的预测;这些都需要仿真计算。北京超级云计算中心在深入了解了金风科技的需求后提供了满足其要求的计算平台,金风科技迁移到A分区上,再基于平台开发了业务系统,甚至还把系统开放给产业链上其它风电合作伙伴或者生态里的厂商。

  总结而言:当前,我国正从加工出口向高附加值产业转移,这就需要大量的计算力,通用超算可谓适逢“天时”;加上“新基建”之火,推动了各地对于超算的需求,这可谓是通用超算的“地利”;而云化服务对于超算的渗透才刚刚开始,北京超级云计算中心又汇聚了一批从业超过十几年的超算行业专业人员,这为以北京超级云计算中心为代表的通用超算奠定了坚实的“人和”基础。加上国家加大对于科研经费的投入以及要求提高科研经费的利用率,通用超算云服务势必将在十四五期间走入发展的黄金时代,进而推进中国自主创新的全面提升与遍地开花。

责任编辑:刘沙