什么是高性能计算?高性能计算有什么用?为什么我国要发展高性能计算
超级计算机又称超算,HPC,高性能计算等。
相比于手机、互联网、云计算等行业,高性能计算是一个非常冷门的行业,除非专业人士,否则很少有人能关注到,一直远离公众视野,鲜为人知。
但近几年,随着科技对国家战略的越来越重要,高性能计算开始出现在各种媒体,被逐渐重视起来。
为什么要做高性能计算?
人类对计算及性能的要求是无止境的,有了高性能计算,对科研工程、模拟仿真等领域的发展会起到非常好的促进作用。
今天就和大家来聊聊高性能计算的发展历史。
上世纪七十年代,美国克雷机开启了高性能计算的大幕。超级计算机一经推出就大受追捧,先后被美国能源部、国防部、波音、美孚石油采购。
现在大家对高性能计算大致分为这样四个阶段:向量机、SMP、MPP、集群。
八十年代,我国也推出了自己的向量机:银河1号,用来计算核爆、流体力学、石油开采等一些亟待解决又高度保密的课题。现在银河1号向量机已经退役。
向量机虽然计算性能强大,但缺点也十分明显,就是所有软硬件都需要专门设计定制,与市场上大量销售的软硬件不兼容,这使得向量机的价格非常昂贵,很难做到普及。
这个缺点严重制约了向量机的发展。所以当时人们为了降低向量机的成本,把目标转向通用的软硬件设备,于是SMP就此诞生。
SMP可以翻译为”对称多处理”。它是在计算机里安装多块处理器,共享内存和数据总线来提高计算性能。就像现在的手机、平板、PC使用的多核CPU其实也是SMP架构,区别是以前的处理器会安装在主板的多个基座上,由总线连接;现在是把多块处理器在生产时就封装到一起,插在一个基座上。
SMP技术难度低、计算能力提升明显、性价比高、市场需求大,能够兼容当时大多数软件,一经推出,就受到了众多厂商的跟风,当年Compaq、HP、IBM一众行业大佬,都是生产SMP服务器的主力军。
但SMP架构也有自己的缺点和限制,它需要共享内存和数据总线,运行过程中存在物理资源竞用的问题,这就限制了性能发挥,通过增加的处理器数量来增加性能的方式让其扩展性十分有限,也制约了SMP架构的发展。后来人们为了追求更强大的计算能力,便推出MPP架构。
MPP称为”大规模并行处理”。这种架构取消了共享内存和数据总线,把每台计算机做一个独立的节点单元来对待,节点之间用专用的高速网络连接,通过软件协同完成共同的任务,属于纯粹的无共享架构(ShareNothing)。
MPP架构相比SMP架构,性能虽然有了大幅提升,但是缺点也更多,比如对硬件设备要求高,产品价格贵,扩展能力不足,需要专门的软件来支持(开发MPP软件是远比MPP硬件更复杂的事)。所以它仍然是那些不在乎成本的IT巨头和垄断部门的专属玩物。实际这些年来,MPP之所以没有发展,这些制约缺点是主要原因。
于是,为了获得更强大的计算效果,高性能计算来到了第四个阶段:集群。
现在的计算机集群可说是这些年IT新技术发展的综合体和集大成者。除了继续沿用MPP节点的概念,还大量借鉴采用互联网衍生出来的各种基础技术。比如普遍采用通用硬件来降低设计和采购成本;采取“软件定义硬件”策略,把原本属于硬件的功能转移到软件来解决,而且还便于升级。
使用统一的协议支持异构计算平台,允许动态增加减少计算节点,通过”硬件冗余+软件容错“解决硬件运行过程中出现的问题。所以现在计算机集群即实现了超强的扩展能力,又能够保证足够的经济性。
另外,与前几次主要面向专业领域不同,当前集群的发展方向已经转向了商用领域,这是非常广大的市场,有着巨大的商业利益。例如在军事方面,在天气预测,在科研方面,在模拟仿真设计方面,在能源开发等方面,高性能计算越来越多的应用在商业领域。
由于面向商业用户,更多强调经济性和使用成本,使用虚拟化技术支持多租户共享,普遍采用按时付费的支付模式,能够根据用户需求分配云端资源。
集群架构另一个主要领域是超级计算机,当前世界上主要的超级计算机,比如我国的“神威”、“天河3”,美国的“泰坦”、“Summit”,日本的“京”,都属于集群架构。而且云计算和超级计算机也正在融合中,现在一种叫“超算云”的共享计算模式正在各大云平台中形成。
说完硬件,再说软件。由于建立在集群架构之上的业务需求、市场生态已经发生了根本变化,基于早期几种架构研发的软件很难发挥出集群的性能。目前现在有几家ICT巨头看好集群业务带来的商机,正在投入巨资研发通用的集群系统软件,希望一举拿下这个蓝海市场。
这有点象移动互联网刚刚开始的时候,苹果推出IPhone手机后,需要再推出iOS操作系统来适配IPhone手机。另外在超算领域,超级计算机做为国家综合科技实力的具体表现,与各国基础科研密切相关,将带动一大批产业发展,也都在加大对超算和超算软件的研发投入。所以现在无论是企业还是政府,都是一副百舸争流的状态,希望通过集群操作系统进一步巩固各自的优势地位,拿到下一场技术革命的门票。
最后,一个不争的事实是,目前无论云计算、超算,还是集群软件,仍然是美国最强,我国处于追赶地位。
由于集群硬件基本构型已经完成,现在各国发力竞争的主要是集群软件,尤其是集群操作系统这样的通用基础软件。美国曾经通过PC操作系统、手机操作系统获得在个人电脑、手机领域的决对优势,巩固了全球领导地位,进而影响全世界,直到现在。现在集群操作系统类似于当年iOS登场的时候,集群操作系统将决定我国未来二三十年在云计算、大数据、人工智能的生态市场和领导地位。
对于中国,这是一场不能输的战争。而且由于近几年我过高性能计算的发展,已经引起了美国方面的重视,针对高性能计算领域的封锁越来越严。
目前,前方道路依然漫长,需要我们一起凝聚力量去完成高性能计算的发展!