【观察】重新定义HPC基础设施,推动HPC与AI加速融合

    xiaoxiao2022-07-07  170

    申耀的科技观察

    读懂科技,赢取未来!

    众所周知,高性能计算(HPC)最早的应用领域是在科学计算,包括国防、航空、能源、电力、汽车、生物、气象、仿真等领域,因此HPC亦被称之为“国之重器”,它不仅代表着一个国家在科学计算方面的实力,更是一个国家在经济建设中打造核心竞争力的关键武器。

    但与此同时,HPC经过一代又一代的不断进化和迭代,特别是随着人工智能应用的快速崛起,更使得HPC不仅在科学计算领域的贡献日益突出,同时也被人们广泛应用于自然语言、图像识别、自动驾驶等人工智能的新领域。

    从这个角度来看,HPC和AI不仅有着天然的联系,如今更处在加速融合之中。换句话说,HPC不仅可以助推人工智能的快速发展,更随着人工智能的不断成熟,又反过来促进了HPC系统更好的部署和应用。

    那么,对大部分已经部署了HPC的学术研究部门、政府机构和企业而言,如何才能在现有的环境下,通过评估和优化HPC的基础设施架构,让HPC基础设施发挥出更大的作用,进而促进HPC和AI产生新的“链式”反应,最大化的释放人工智能带来的新能量呢?

    重新定义的HPC基础设施

    可以看到,随着AI在过去几年的加速发展,AI消耗计算能力的速度,远比想象的要快得多,尤其是随着神经网络层数的增大,层间连接的增加,数据规模的不断膨胀,加上未来新的模型和算法的出现,让AI对计算能力的需求出现了指数级的增长,由此也对HPC基础设施带来了新的挑战。

    首先,从计算性能看,由于人工智能对于计算的要求确实不同于以往的应用需求,所以如何为人工智能应用提供源源不断的“驱动力”是HPC基础设施面临的第一大压力。

    比如,深度学习需要大量的样本进行训练,以图像分析为例,它的样本量级大约为百亿级,而语音分析也达到了十万小时级,随着AI的应用越来越广,训练数据的样本量越来越大,对计算能力、并行存储容量和带宽都提出了新的要求。

    因此,对HPC基础设施来说,它不仅需要高容量、高带宽的并行存储;也需要高带宽、低延时的互联网络;更需要大规模的计算集群,甚至需要专用的神经网络芯片等等。

    其次,从计算场景看,AI的往往分为线上训练和线下识别平台。其中,对于线下训练平台,其数据量非常大,往往能够达到PB级,计算和通信十分密集,由于深度神经网络(DNN)、循环神经网络(RNN)、卷积神经网络(CNN)等算法往往可扩展性不高,那么就需要在节点内进行高效计算。因此,异构并行计算的技术架构,就成为了高性能线下深度学习平台的未来方向。

    而对于线上识别平台,常常伴随着亿万级别的用户和用户请求,需要成千上万个节点,实时响应,这就要求线上平台需要低功耗并且高性能,他们大多采用云计算方式运行。在这个过程中,FPGA的异构计算模式因低功耗、高性能、易编程等特点,就成为了深度学习的首选。

    最后,从算法和数据看,目前结构化数据、非机构化数据、互联网数据、业务数据等交织在一起,如何在AI时代挖掘数据价值也是另一大挑战。另外,由于目前机器学习的算法框架有很多,比如TensorFlow、MxNet、Caffe、Torch、Theano等,这也需要“因地制宜”的选择适合的HPC基础设施架构,才能满足差异化的需求。

    由此可见,人工智能的爆发,在促进HPC发展的同时,也给HPC的基础设施架构带来了前所未有的挑战,这就需要从计算性能、可扩展平台架构,以及系统优化设计等方面进行优化和重构,才能最大化的解决上述挑战。

    五个维度评估和优化HPC

    但是,在具体的环境中,由于HPC和AI在工作负载、编程模型以及开发应用等方面存在诸多差异,很多客户往往无法用同一套HPC基础设施支持资源的整合利用,由此也造成很大程度上的资源浪费。

    所以,很多客户当前的核心诉求,就是希望在同一套HPC基础设施平台上支持多种业务的开发和应用,这一平台不仅要解决TFLOPS以及EFLOPS级别的硬件环境问题,更关键的是要能支持实现复杂高性能并行计算,以及人工智能中深度学习框架的软件应用,最大化的发挥人工智能带来的新能力,

    在此背景下,对于那些已经部署了HPC的学术研究部门、政府机构和企业而言,未来如何更好的应用AI,让HPC和AI实现进一步的融合,就需要评估现有的HPC基础设施架构,并通过优化和重构现有HPC基础设施,支持HPC和AI带来的混合工作负载。为此,我们可以从五个方面来做好这些准备工作:

    一是,了解HPC基础设施当前的整体性能情况,只有部署在高性能计算平台、低时延互连,以及可支持大数据集的足够内存上,高性能计算和人工智能工作负载才可达到最佳运行表现。

    二是,评估各种可用的人工智能框架库,并确定哪些产品符合自身的需求。例如,现有的TensorFlow、MxNet、Caffe等人工智能框架,就已经能够构建涵盖许多人工智能常见的应用,包括图像识别、语言翻译、推荐引擎和生成式对抗网络等。

    三是,确保选择的人工智能框架已针对当前的高性能计算基础设施进行了优化 由此才能确保人工智能应用获得最高可扩展性、最高效率和最佳性能。

    四是,如果需要在现有的HPC基础设施架构开发算法,那么可以直接专注现有的系统完成优化,这样可以确保在不需要加速器或GPU等新硬件上投入大量的资金,实现成本的降低。

    五是,了解工作负载会是何种形态。特别是弄清自身规划的人工智能计划将需要多少训练和推理,因为这些不同种类的工作负载对HPC基础设施的要求也会有所不同。

    小结一下,在整个HPC系统中,必须解决所有潜在瓶颈(如计算、存储、网络等),以便从每个硬件中获得最大收益。同时,应尽最大可能保留现有的基础设施投资。但如果预期使用要求超出了HPC系统的硬件性能,则可能需要进行升级。并根据工作负载需求安排实施优先级,逐步改进和扩展现有的HPC基础设施。

    更重要的是,在此基础上,要使人工智能在HPC系统中发挥最大的潜力,深度学习框架发挥着举足轻重的作用,因此也需要进一步开发和优化算法,并对模型进行强化训练,以满足组织的需求,最终发挥出人工智能的最大潜能和价值。

    推动HPC与AI的加速融合

    值得一提的是,正是洞察到了那些已部署HPC,但又希望利用现有基础设施发展AI的客户,英特尔与其他行业领先企业合作开发了面向高性能计算的英特尔精选解决方案,这是一套面向快速部署HPC基础设施的解决方案,已针对分析集群和高性能计算应用进行了优化,可帮助客户在发展人工智能的过程中,缩短实现突破、提供可行洞察和设计新产品的时间,具体而言:

    一方面,在硬件平台创新方面,英特尔的高性能计算技术包含许多创新,可帮助客户从最苛刻的人工智能工作负载中获得最大收益,这些产品包括英特尔至强可扩展处理器和英特尔至强融核处理器;英特尔Omni-Path 架构;英特尔FPGA;英特尔傲腾技术;英特尔3D NAND 固态盘以及英特尔高级矢量扩展AVX-512等。

    另一方面,在算法和框架方面,英特尔也针对常见的人工智能框架进行了优化,包括英特尔Optimization for TensorFlow,这是基于 Python的深度学习框架,旨在加强现代深度神经网络的易用性和可扩展性;英特尔Optimization for Caffe,这个Caffe 的优化分支是最为流行的图像识别框架之一;针对MXNet,英特尔数学核心函数库(英特尔MKL)提供对这个开源深度学习框架的内置支持等。

    不难看出,面向高性能计算的英特尔精选解决方案,真正实现了HPC和AI应用的融合,通过对硬件平台创新和对算法和框架的支持,英特尔让AI和HPC应用能够平稳、高效地运行在统一的HPC基础设施平台之上,从而大大加速了图像识别、自然语言处理、自动驾驶等人工智能应用的创新和应用进程。

    全文总结,科学计算的深入应用,深度学习驱动的人工智能,都正在重新定义HPC的创新和应用边界,而英特尔通过推动HPC和AI的融合,让更多的客户可以更快速、更容易以及更省成本的方式最大化利用现有HPC基础设施,发挥人工智能的作用,无疑也体现了英特尔希望通过不断的创新,让更多客户受益于人工智能普及带来更大价值的决心和信心。

    申耀的科技观察,由科技与汽车跨界媒体人申斯基(微信号:shenyao)创办,16年媒体工作经验,拥有中美两地16万公里自驾经验,专注产业互联网、企业数字化、渠道生态以及汽车科技内容的观察和思考。

    点击【阅读原文】,了解更多精彩内容!↓↓↓
    最新回复(0)