⑴ 亿万次桌面超级计算机有什么概念
1997年6月TOP500排名中第一次出现Linpack测试超过万亿次(1 Tflops)超级计算机,8年后全球最快超级计算机TOP500排行榜入门门槛提高到1 Tflops,万亿次计算时代来了。
"Petascale"、"Petaflops"是当前在高性能计算机领域经常使用的两个词汇。所谓"Petascale"或 "Petaflops"是指每秒进行1000万亿次双精度浮点运算,这是当前全球最快的超级计算机--安装在美国能源部洛斯阿拉莫斯国家实验室 (NASL)的IBM蓝色基因/L系统的3.5倍。自1997年6月TOP500排名中第一次出现Linpack测试超过万亿次(1 Teraflops)超级计算机,到8年后全球最快超级计算机TOP500排行榜入门门槛1 Teraflops,我们说万亿次计算时代真正到了。
千万亿次的概念
实际上我们在谈千万亿次超级计算机时必须要区分三点:一是系统理论峰值计算速度千万亿次;二是通常意义下全球TOP500排名中 Linpack测试峰值Pflops; 三是在实际应用中持续应用性能Pflops。我们在谈到千万亿次计算时更多的是指在实际应用中持续应用性能超过千万亿次每秒。
TOP500中几年来第1名和第500名均保持6~8年的时间,也就是说当今的第1名在6~8年后则排名到第500名,而8~10年后微处理器芯片就可达到本年度TOP第500名的浮点性能。当前,全球高性能计算机学术界及产业界都期待并预测2010年6月第一台Linpack测试峰值千万春灶亿次(Petaflops)计算机的出现,并期待8年后,也就是2018年,千万亿次超级计算时代的真正到来,也就是说千万亿次将是全球TOP500排行榜的入门门槛。
超级计算机一直是各国关键技术装备之一,广泛应用于国防、信息安全、石油勘探、气象预报、生物制药、工程仿真、科学计算、商业计算等领域,是各国战略竞争的制高点。当前,全球各国都投入了巨大的人力物力进行研究。
第28次全球TOP500超级计算机系统排行榜地域分布,我们可看到,全球最快性能TOP500超级计算机大部分在美洲,欧洲和亚洲最快 TOP500超级计算机告森友之和也不敌美国。近年欧洲超级计算机比例有所下降,美洲则有所增长。欧洲和亚洲已势均力敌,其占有量英国和德国占有优势。袜槐在亚洲超级计算机占有量日本占优势,中国和印度正在奋力直追,但与美日相比,仍有较大差距。
各国的千万亿次之路
⑵ 计算机每秒千万亿次的运算速度是什么概念
通俗点
还真不好说。
这么给你说看你能明白不能。
就是电脑里所有的东西比如,听歌,看电影,下载,聊天,等等
所有所有的操作。都会转化成0和1这两个数。因为电脑就认识这俩数字。0和1就是所谓的二进制代码。
比如。你用鼠标在桌面上点一下。这个动作,发生后,某些代码程序就开始吧你这个动作开始进行转换。最终转换成0和1,然后电脑计算后,知道你要执行的是什么动作。然后才给你执行。
这样说起来,你升敬衫可能会认为,这样麻烦,为什么平时没感觉出来。感觉鼠标一点,立刻就有相关动作了。呵呵
这就说到计算上面了。
1206亿次运算,就是特指二进制下的0和1的运算。每秒能运算1206亿次0和1的运算。比如0和1每秒相加1206亿次。
呵呵,就我刚才的例子。要是运算慢了,你点一下鼠标,不还得卡半天啊。因为运算不稿悄过来啊。呵呵
双精度就不用多说了吧,就是小数点后面两位
刚才说了,计算机只能进行整数运算。浮点运算就是实数运算。机器有吵腔两种方法表示实数,一种是定点运算
一种是
浮点。定点就是小数点位置不改变。浮点就是小数点的位置不固定。
呵呵
我只能这么说了,是在通俗不了呵呵!
⑶ [高性能计算的三大研究领域]高性能计算领域的研究内容
科学计算、海量信息处理与检索以及正在普及的多核个人计算机是高性能计算的主要研究领域,由于领域的不同,对于高性能计算各自都有不同的研究重点。 美国宇航局(NASA)是超级计算机最大的用户之一
从起源来看,计算机系统的原始需求来自军事,如第一台计算机ENIAC是美国军队为了计算弹道而投资研制的。在随后的30年中,计大逗算机主要应用于与国家安全相关的领域,如核武器设计、密码破译等。到20世纪70年代末,高性能计算机开始应用于石油工业、汽车工业等资本密集型工业。随后,高性能计算机开始广泛进入各个行业,协助进行产品设计、用户分析等等。如医药公司使用高性能计算机辅助进行药物设计,可以大大节省新药的研发开支; 超市使用高性能计算机分析用户消费模式,以推出恰当促销措施等等。在这些领域,更高的计算性能就意味着在产品和服务方面的竞争优势。在科学研究领域,数值模拟方法成为现代科学方法的重要组成部分,这里更高的计算性能就意味着更快的科学发现速度。目前,高性能计算技术已成为促进科技创新和经济发展的重要手段,是一个国家综合国力的重要组成部分。本文将就高性能的几个最重要的应用领域进行介绍。
用高性能计算机解决科学挑战
许多重要的科学问题非常复杂,需要功能非常强大的计算机来进行数值模拟,这些问题被视作科学上的重大挑战,可以分为如下几类:
1. 量子化学、统计力学和相对论物理学;
搜纯2. 宇宙学和天体物理学;
3. 计算流体力学和湍流;
4. 材料设计和超导;
5. 生物学、制药研究、基因组序列分析、基因工程、蛋白质折叠、酶活动和细胞建模;
6. 药物、人类骨骼和器官建模;
7. 全球天气和环境建模。
这些重大世仿咐挑战问题大多可以看作传统的高性能计算应用的延伸,其特点是: 大部分是浮点密集型应用程序,并行算法要求多个并行进程之间进行较为频繁的通信和同步,而非简单的多个计算用例之间的并行,因此无法使用多台规模较小的系统来替代一台大规模系统。
这些重大挑战问题对计算能力的需求远远超出了现有的高性能计算机的性能。以量子化学计算为例,需要20T~100Tflops的持续计算能力才能够对目前进行的实际实验结果进行预测。在核聚变研究领域,需要20Tflops的持续计算能力才能够进行全规模的系统模拟。蛋白质折叠的计算需要1Tflops的持续计算速度。另一方面,重大挑战问题对数据的存储也提出了更高的要求,以计算生物学为例,进行蛋白质分析时需要使用的一台质谱仪每天就可以产生100GB的数据,50台质谱仪1天就可以产生5TB的数据。
目前,世界上最快IBM BlueGene/L的处理器个数为131072个,Linpack速度为280.6TFlops,达到了其峰值速度的76.5%(2005年11月数据)。但一般并行算法要比Linpack的通信更加频繁,访存局部性也没有Linpack好,这使得其并行效率相当低,通常仅能达到系统峰值速度的10%,甚至更低。为了能够有效地解决上述重大挑战性的问题,需要研制千万亿次高性能计算机系统,这就需要攻克系统结构、软件工具和并行算法等多方面的难关:
1. 能耗控制
随着现代处理器频率的增加,其功率也大幅度增加,最新处理器的功耗已经超过100W。这使得高性能计算系统本身的耗电问题已经十分严重。同时由于系统散发的大量热量,必须在机房中采用大功率的空调系统才能保持系统机房的正常温度。这两方面的因素造成系统的整体电能消耗非常巨大,维护成本很高。分析结果表明,未来系统主要的维护成本将来自系统的电能消耗。在研制千万亿次高性能计算机系统时,必须重视系统的能耗问题。
目前有几种方法来处理系统能耗问题,一是给处理器设定较低的工作电压,通过并行性来获得高性能,例如BlueGene/L处理器的工作频率仅有700Mhz,因此单个内核的处理能力远远低于其他高频率的处理器。但BlueGene/L通过大量的处理器来弥补单个处理器能力的不足,达到了较高的整体系统性能,并获得了优化的性能/能耗比。另一种方法是通过软件和硬件传感器确定和预测需要使用的部件和不需要使用的部件,然后将不需要立即使用的部分通过某种措施,如降低频率或完全关闭来减少其耗电量,从而达到降低整个系统功耗的目的。这方面的工作根据控制的粒度不同可分为芯片级、主板/BIOS级以及结点级。
2. 高性能计算软件与算法
大规模并行处理硬件系统仅仅为高性能计算提供了一个平台,真正的功能还要通过高性能计算软件来完成。高性能计算软件与算法的主要工作可以分为3类:
(1) 提出具有较低理论复杂度或较好实际性能的串行算法
尽管可以通过并行计算来加快运算的速度,但并行处理往往需要较大的软件开发成本和硬件成本,因此在进行并行算法的开发之前,必须考察是否存在可以解决问题的更好串行算法。以整数排序问题为例,使用并行的冒泡排序算法,其效果还不如使用串行的快速排序算法。因此,高效的串行算法研究是高性能算法研究的重要课题。着名的算法包括线性规划问题的单纯型法、FFT、快速排序、矩阵特征值的QR算法、快速多极算法等。近年来在算法方面的突破使印度学者在素数判定问题上提出了多项式复杂度算法。
(2) 优化现有算法
算法只提供了理论上的性能,要在实际系统上获得高性能,必须对算法的实现进行优化。现代处理器大多使用多级Cache来隐藏访存延迟,因此必须根据目标系统的Cache参数来优化算法的访存行为。此外,许多处理器还提供了SIMD指令,合理使用这些指令可以达到较高的性能。许多优化的数学库,如ATLAS、Intel公司的MKL等已经为不同的体系结构,特别是Cache配置进行了特别优化,可以达到较高的执行效率,为优化算法实现提供了很好的帮助。
(3) 并行算法与并行应用的开发
并行算法的研究与串行算法有联系也有区别。优秀的串行算法并不一定适合并行化,某些时候在串行算法中并非最优的算法在并行实现时却能体现出较大的优势。对于千万亿次计算机而言,其处理器(核)个数在10万以上,并行应用的并行度需要达到数万个并行进程才能有效地利用千万亿次计算机。并行算法的三个主要优化目标是: 通信优化、负载平衡以及最大化并行区。通信优化的目标是尽量减少通信次数和通信量,减少由于处理器之间通信带宽限制引起的性能下降。在大规模并行程序中,负载平衡问题也非常突出,少数负载不平衡的任务会使得整体性能急剧下降。同样的,根据Amdahl定律,应用加速比的上限是串行区所占比例的倒数,即应用中1%的串行区域就会使得整个应用程序的加速比不可能超过100。因此,要在数万个并行进程的情况下取得理想的加速比给并行算法的开发提出了很大的挑战。
3. 系统可靠性与可管理性
随着系统内结点个数的增加,系统失效的可能性也随着增大。并行程序的特点是只要有一个并行进程失败,整个并行程序都执行不成功。对可靠性问题的处理方法之一是设法提高系统的稳定性,这包括硬件系统可靠性和软件系统的可靠性。但目前公认的结论是: 大规模系统的故障是在设计时必须考虑的前提条件,而并非可以通过技术手段加以解决的问题。因此,必须考虑如何在系统结点出现故障的情况下仍然能够保证系统服务质量不发生显着下降。
故障监测技术和动态系统重构技术可以用来减少或消除系统失效对应用的影响,即尽快隔离出现问题的结点,使得用户可以使用状态正常的结点进行计算。与系统动态重构技术类似的技术还有系统动态划分技术,主要用于向不同的用户提供相互独立的结点集,使得整个系统的管理和使用更加有效和安全。
但是上述技术仅能解决系统对新的应用的服务质量问题,无法保证已经执行的应用在某个计算结点出现问题后的处理。某些并行应用,如石油数据处理需要连续运行几十天的时间,一旦某个结点出现错误,会使得前面的计算前功尽弃,需要从头开始计算。并行检查点技术主要提供应用级的容错,即能够自动地定期记录并行程序的状态(称作检查点),在计算过程中某个结点发生失效后,可以从所记录的并行程序检查点恢复执行,避免了重新执行整个程序。
高性能计算与海量信息处理
人类所产生的信息量以指数速度增长,如何存储、检索和利用这些信息为信息技术提出了重要挑战。从20世纪90年代开始,互联网的飞速发展给信息的传播与服务提供了新的机遇。传统的信息服务系统以数据库为中心,典型应用是OLTP(事务联机处理)。而以Google为代表的海量信息检索与处理服务是另一类重要应用,以Google集群系统为代表的系统体现了高性能计算系统的另一个发展方向。
信息检索与处理服务系统的特点与科学计算非常不同,对处理系统也提出了不同的要求:
1. 信息处理与服务应用需要频繁访问动态的数据结构,包含很多不可预测的分支,使得现有超标量处理器中的许多技术,如分支预测、数据预取、乱序和推测执行等功能无法很好地发挥作用,应用的指令级并行性较差。
2. 大部分信息处理与服务应用具有较好的数据并行性,可以很容易地在分布式系统上执行。以信息检索为例,一个信息检索请求可以被分配到多个服务器上进行并行检索,最后再将搜索结果统一处理返回给用户。这个过程中大多数的访问是只读的数据,并行任务之间的通信非常少,并行效率比较高。
3. 系统的性能指标一般不以单个服务请求的响应时间为量度,而更关注系统整体的吞吐率。以搜索引擎为例,信息服务系统更重视在1分钟内能够完成的用户搜索次数,而对单次搜索在0.5秒内完成还是1秒内完成并不特别敏感。
4. 系统需要很高的可靠性和可维护性。可靠性是对服务而言的,即组成的系统必须能够近乎不间断地为用户提供服务。可维护性是指系统的更换与维修可以简单快捷地完成,新更换的结点可以快捷地加入到系统中。
5. 低成本。这包括系统构建成本和总拥有成本两部分。海量信息处理和服务所需的系统规模极为庞大,Google Cluster在2003年就达到了15000台计算机的规模。如此巨大规模的系统,需要尽可能地降低成本。
为了能够有效满足上述信息处理与服务系统的要求,人们对于如何高效地构建相应的服务系统也展开了研究与实践:
1. 使用副本技术通过软件提供可靠性
在大规模系统中,单个系统结点的失效是不可避免的。现有的通过冗余底层硬件提高系统可靠性的方式,比如冗余电源、RAID技术等,成本较高,性价比较差。相反,在信息服务系统中可以广泛使用软件提供服务级别的可靠性。主要的方法是采用副本,即将服务和数据复制到多个系统结点上,即使单个系统结点的可靠性不是很高,多个副本提供了服务所需的可靠性。另一个使用副本技术的优点在于其提高系统可靠性的同时也提高了系统的性能,即保存副本的多个系统结点可以同时向用户提供服务。
2. 注重系统的性能/价格比
由于信息服务系统应用容易并行的特点,采用大量低端系统组合的方法比使用少量高端系统在性能价格比方面更具有优势(此处所指的低端系统是指1~2个CPU的PC机或入门服务器,高端系统是指大规模处理器服务器,如HP 的Superdom服务器、IBM的P690服务器等)。此外,信息服务系统与用于科学计算的高性能系统面临同样的挑战: 能耗问题。在大规模信息处理与服务系统中,电费成本(包括系统本身耗电和空调系统耗电)将占有总拥有成本的很大一部分。因此,在选用系统时,应选择性能/能耗比较高的系统也是一个重要的原则。
(3) 使用多内核处理器
由于信息服务程序的特点,它更适合使用多个简单内核构成的处理器,这些简单内核仅需要按序执行,并使用较短的流水线。由于信息服务应用的指令级并行度较差,按序执行不会造成太多的性能下降,但可以节省复杂的乱序执行单元电路,从而可以降低功耗。另一方面,较短的流水线可以降低分支预测失效的开销。
并行计算与个人计算机
随着半导体工艺的发展,单个芯片上能够集成的元件个数还将在5~10年内遵循摩尔定律继续以指数级增长。但是当前的芯片散热技术已无法支持芯片频率的进一步提高,而通过提高发射宽度、提高分支预测效率以及数据预取等进一步在体系结构上提高单线程执行速度的方法也逐渐失去了有效性。多内核芯片通过在一个芯片内集成多个处理器内核,采用线程级并行提高处理器性能,已成为微处理器的主要发展趋势。IBM公司在几年前就推出了双内核Power芯片,Intel公司和AMD在2005年推出的双内核芯片更是标志着多内核技术进入了普及阶段。支持更多核心的处理器芯片也正在快速涌现,如Sun公司已经推出了8核的Nigeria芯片,用于面向提高吞吐率的服务器应用; IBM则联合索尼和东芝推出了面向娱乐应用的9内核Cell芯片。Intel公司甚至已经在计划100内核以上的处理器。
多核处理器的出现给计算机的使用带来了新的挑战。随着多内核处理器的普及,成千上万的桌面电脑将成为并行计算机。目前在桌面机上执行的应用程序大多数是单线程程序,无法有效利用多内核处理器提供的能力。如何有效地在个人电脑上利用多个处理器内核成为高性能计算领域一个重要的研究课题,从目前的趋势来看主要有以下几个方向:
1.使用多任务带来的并发性
Intel的 双核ViiV家用电脑是这方面的典型例子。ViiV电脑的典型使用模式是一个人在客厅使用ViiV电脑看电影,另一个在自己的房间里使用同一台电脑玩游戏,两个人使用同一台电脑中的不同处理器内核,从而达到了有效发挥双核能力的目的。但这种依靠多个用户同时使用一台电脑的模式具有很大局限性,因为家庭成员的个数是有限的,对于4内核以上的多内核处理器,这种模式无法提供有效的支持。
2.聚合多内核的能力,加速串行程序的执行速度
计算机科学家们正在研究一种称作推测多线程(TLS: Thread-Level Speculation)的技术,该技术可以自动分析串行程序,推测其中能够并行执行的部分,在多个内核上并行执行。但一旦发现并行执行的部分有冲突,就撤销其中一个冲突线程的执行,执行补偿操作并重新执行该线程。推测多线程技术的优点在于无需用户干预就可以在多内核系统上加速现有单线程程序,其缺点在于对于性能提高的幅度有限,大约在4内核系统上仅能比在单个内核上提高性能30%,而且再增加内核数,其加速比也不会显着增加。因此,这种方式也无法支持更多内核的处理器。
另一种有前途的技术是自动并行化技术。自动并行化技术可以在编译时识别程序中的并行性,并将其转化为多线程并行程序。过去的自动并行化技术主要是面向SMP系统的,但不是很成功,原因是对真实应用程序,自动并行化无法得到满意的加速比。一个程序通过自动并行化在4 CPU的SMP系统上得到20%的加速比是不能令人满意的,因为4 CPU的系统通常价格是单CPU价格的10倍以上,自动并行化无法提供性能价格比上的优势。但是对于多内核系统,如果能够在四内核系统上通过自动并行化得到20%的加速比,应该是比较令人满意的结果,因为这些内核是“免费”提供给用户的,即用户无法用四内核处理器1/4的价格购买一个单内核处理器。因此,多内核处理器在家用电脑上的普及,将大大降低人们对自动并行化效果的期望,使得自动并行化技术重新被接受和应用。
3. 并行化现有的桌面应用
既然采用多内核处理器加速串行应用无法充分利用多内核处理器的能力,那么并行化现有的桌面应用就成为了一个重要选择。这方面的研究主要是分析现有的桌面应用,对有代表性的应用进行手工并行化,这些研究试图回答下面的问题: 哪些桌面应用能够被有效并行化,哪些不能?并行化本身的难度有多大?应如何改进现有的编程模型、编程工具以及系统软件来更好地支持应用的并行化?
研究表明,桌面系统上的大部分应用,如图像处理、3D图形运算、多媒体数据编码与解码、数据与文本挖掘、文本与媒体搜索、游戏与博弈等都可以有效地被并行化,并在多内核系统上得到有效的执行。但是,手工程序并行化的开销仍然很大,并行程序员需要了解并行计算的有关知识,并对计算机体系结构、操作系统、编译原理等有一定了解才能写出有效率的并行程序。并行编程模型与并行编程工具还需要提供更好的支持,以帮助并行程序员开发、调试并行程序。
今天,高性能计算技术已成为整个计算机领域的引领技术。多内核处理器的出现,使得并行计算技术将很快普及到我们的每台计算机,渗入到我们生活的方方面面,这是计算机产业发展史上的一个重大变革,对我国而言是一次难得的机会。在“十一五”期间,我国将进一步加强对高性能计算技术研究的支持,注重引导企业应用高性能计算技术促进产业升级和科技创新,同时更加特别重视高性能计算技术的教育培训工作,在高校的理工专业广泛开设并行程序设计课程,培养更多了解和使用高性能计算技术的人才,在此次变革中实现跨越性的发展。
作者简介
陈文光
清华大学计算机博士,清华大学计算机系副教授,863高性能计算机评测中心副主任。曾任Opportunity International Inc.总工程师。主要研究领域为并行计算的编程模型、并行化编译和并行应用分析。
链接:高性能计算发展趋势
随着应用的需求与计算机技术本身的发展,近年来高性能计算的发展体现出一些新的特点,可以用“大,宽,小”来代表这三个特点:
“大”是指高性能计算系统向更大规模发展,处理器个数可达10万个以上,主要用于解决超大规模的数值模拟问题。
“宽”是指在传统的数值计算之外,高性能计算系统正越来越广泛地应用于信息处理和服务领域,为海量信息的存储与检索以及网络服务提供有效的保证。
“小”是指多内核CPU的出现和普及,将使得今后的每台个人计算机都成为并行计算机,如何有效地利用个人计算机的多个内核是对高性能计算技术提出的新挑战。
⑷ 哪些国家有运行速度达千万亿次的超级计算机分别是什么时候研发的,叫什么
在11月份刚刚出炉的排行榜上,美国的“美洲豹”荣登榜首宝座,中国的“天河一号”名列第五位。
1. 美洲豹:“美洲豹”超级计算机系统隶属于美国能源部,坐落于美国橡树岭国家实验室。在本期排行榜上,它以每秒1.8千万亿次的运算速度超越“走鹃”而名列榜首,它的运算速度比“走鹃”快大约70%。“美洲豹”是一台民用计算机,将主要用于模拟气候变化、能源产生以及其他基础科学的研究。
2. 走鹃 :自2008年6月起到本期排行榜出炉之前,“走鹃”一直稳居TOP500排行榜榜首位置,它也是世界上第一台打破每秒千万亿次运算速度的超级计算机。“走鹃”位于美国新墨西哥州的洛斯阿拉莫斯国家实验室,它也是一种IBM系统计算机,每秒运算速度可达1042万亿次。它采用了一系列专门针对游戏和商业的技术,包括用于索尼“游戏站3”的九核Cell处理器和AMD双核皓龙处理器。因此,“走鹃”是全球第一台采用Cell处理器的混合式超级计算机。“走鹃”系统主要用于对美国核武器进行复杂而秘密的评估。
3. 海妖 :“海妖”超级计算机由美国田纳西大学国家计算科学研究院所研制。“海妖”系统中拥有10万个AMD双核带虚皓龙处理器,运算速度为每秒831万亿次,它主要用于一些高端服务器或工作站中。“海妖”也是世界上由学术机构所拥有的运算速度最快的计算机。
4. 尤金 :“尤金”是欧洲运算速度最快的巨型计算机,曾经也名列全球排行榜第二名。它是由德国尤利希超级计算机中心所研制,采用的是IBM蓝色基因/P型机设计方案,使用许多小型、低能耗的芯片。该方案中,每一个独立处理器的最大运行速度为850兆赫判悔,甚至比普通家用电脑的处理速度都还要慢。但是,“尤金”巨型机总共拥有292000个处理器芯片,如此多的芯片使得它的整体运算速度高达每秒825万亿次。本图拍摄于今年初,当时科学家们正在对其进行升级。
5. 天河一号 :“天河一号”是首次进入全球超级计算机500强排行榜。它是中国首台千万亿次超级计算机系统,其系统峰值性能为每秒1206万亿次双精度浮点运算,Linpack测掘行正试值达到每秒563.1万亿次。“天河一号”是由天津滨海新区和国防科技大学共同建设的国家超级计算机天津中心所研制,它的运算速度是中国此前最快的超级计算机的四倍多。在“天河一号”中,共有6144个Intel处理器和5120个AMD图像处理单元(相当于普通电脑中的图像显示卡)。“天河一号”将广泛应用于航天、勘探、气象、金融等众多领域,为国内外提供超级计算服务。
⑸ 曙光5000的创新
曙光5000方案中的创新点很多,现简要描述以下三点信数。
1、在世界上首次提出既能应对千万亿次科学计算又能十分有效地支持能力计算(utility computing)、应用面广的HPP体系结构(Hyper Parallel ProCESsing)。
高效能超级计算机的主要用途有两种,一种是以最快的计算速度解决某个领域的科学问题,如IBM的BlueGene主要适用于解决蛋白质折叠计算;另一种是用于计算中心或数据中心的能力服务,即能有效地提供大量用户需要的计算、存储和I/O能力。迄今为止,全世界还没有一种高效能超级计算机能较好地满足这两方面的要求。这是因为不同的应用需要不同的体系结构。
国外已有和正在研制的高效能超级计算机的体系结构的基本思路主要是大规模并行机(MPP)、机群(Cluster & Constellation)和分布式共享存储(NUMA)三种,不管采用哪一种都有局限性。曙光5000准备采用的HPP体系结构是计算所、曙光公司和多位国外着名学者反复研讨后提出的一种标新立异的结构。HPP是具有全局地址空间和三级并行的分布式系统,即片内是可扩展通用多处理器核并具有寄存器传输级通信机制;通过三层高速互联实现片内、节点内、系统三级并行;具有全局共享地址空间,通过节点内和节点间两级互连构罩坦卖成分布式系统;支持多通道并发的核到核通信;节点操作系统具有单一系统映像,并保持节点独立性;有效支持“多线程分割全局地址空间”编程模型。
通过实现以上独创技术,可以得到以下前所未有的好处:
(1)基于HPP体系结构,可通过虚拟化技术使曙光5000体现不同体系结构的优点,从应用的角度看,它既可以是MPP,也可以是Cluster或NUMA结构的计算机系统,显着地扩大了应用范围;
(2)曙光5000能有效地支持能力计算这一计算中心和大企业需要的新型计算模式,能根据用户的需求动态地调度和优化利用计算机资源;
(3)曙光5000缓解了大规模可扩展和编程困难的矛盾,既增强了高效能计算机的可扩展性,又实现了全局共享地址空间,一定程度上克服了目前的分布式机群系统编程难的瓶颈,而且使目前商用机群上的大量应用软件可以兼容运行;
(4)目前IBM BlueGene、Cray XT4、NEC ES等高端计算机技术下移至中低端系统时缺乏竞争力,而通过采用HPP体系结构,不但千万亿次计算机具有极高的性能价格比和性能功耗比,而且向下辐射做百万亿次甚至几万亿次计算机时都有很强的竞争力,十分有利于产业化。以上这些创新点国际上千万亿次计算机研制中还没有看到,如果这些设计都能得到有效实现,曙光5000很有可能在一些方面处于世界领先水平。
2、创新的设计主要体现在三款核心芯片上,曙光5000具有(百)千万亿次计算机的实实在在的自主知识产权。
从曙光一号到曙光4000,计算所和曙光公司在高效能超级计算机的研制过程中,曾设计、流片过Wormhole Routing等关键芯片,但基本上没有量产。目前大量销售的曙光高性能计算机的各种芯片几乎都是进口的,CPU等芯片占到高端计算机成本的80%以上。曙光5000与过去我们研制的高端计算机的重要区别是,(百)千万亿次计算机的三款物逗核心芯片都将由计算所和曙光公司自己设计。
这三款核心芯片是:龙芯多核CPU,连接一块板上多个CPU的系统控制器(System Controller),和连接各节点的交换芯片(Switch)。这三款核心芯片难度都很大。如果能按计划如期完成,我们可以十分自信地宣布,中国已完全掌握了高效能超级计算机设计的核心技术。
在我们的研制计划中,这些芯片不是仿制国外的芯片,必须要按照HPP体系结构的要求独立设计,包含许多原始创新:例如:我们争取在世界上首次实现CPU内多核之间的寄存器级(RTL)数据传输机制,使得CPU内通信速度有可能超过计算速度,从根本上消除通信瓶颈;系统控制器和交换芯片中内置可直接寻址的Test & Set硬件锁,可显着提高进程间同步的效率,硬件“同步”也会大大提高并行应用同步的效率;利用全局地址空间实现“赋值”式通信,降低CPU中核与核之间的通信延迟;利用多层网络提高了多核与多核之间并发数据交换的聚合带宽和吞吐率,打破通信壁垒等等。
必须指出,研制(百)千万亿次计算机在工程实现上难度很大,不同于一般的科研课题。曙光5000必须解决一系列世界性难题:如千万亿次计算机的全系统模拟器;高频数字模拟混合、光电混合信号;多核心(Kernel)操作系统容忍单个处理器故障,能够支持节点之间的隔离性;对消息传递机制和全局地址空间两种并行计算模式同时提供有效支持;上千个客户端在多用户并发访问模式下保持稳定的I/O性能;改造现有算法并利用并行编译技术使应用与千万亿次计算机的体系结构相适应,以达到数万个处理器的可扩展性等等。这些都是国际学术界和企业共同面对的难点。我国在工程技术上与国外还有较大的差距,掌握这些技术还需要我们付出艰苦的努力。
3、曙光5000创新技术还体现在低成本、低功耗和低占地面积方面,曙光5000在单位性能的成本、功耗和占地面积上的目标是瞄准世界领先水平。
龙芯多核CPU在可扩展多核结构、多指令集支持以及在低成本和低功耗的基础上获得高效能等方面有独特的优势。如果全部采用龙芯多核CPU,曙光5000在成本上将有极大的优势。即使只采用一半龙芯多核CPU,另一半用国外CPU芯片(曙光5000的体系结构具有很大的灵活性,也可以支持其他主流CPU,不限于龙芯CPU),成本上也有较大优势,比国外正在研制的千万亿次计算机成本要低得多。
曙光5000计划分两期进行,在2008年通过一台百万亿次曙光5000A系统、一台数万亿次原型机、一个模拟器分别验证曙光5000在软件、硬件、体系结构上的创新,在2010年推出千万亿次曙光5000L系统。
曙光5000在满足国家千万亿次高效能计算机的战略需求的同时,还要将关键技术辐射到企业服务器、个人高效能计算机(万亿次)、箱式高效能计算机(十万亿次)、可扩展高效能计算机(百万亿次)等多种产品形态,到“十一五”末高效能计算机平均每万亿次的硬件成本要比曙光4000A时降低30倍,使得国产品牌高效能计算机的销售量增加8-10倍,达到每年4000台以上,大大提高国内品牌高效能计算机的市场竞争力,有力地促进高效能计算机在中国的普及。
⑹ 大数据时代十大热门IT岗位_大数据岗位有哪些
大数据时代十大热门IT岗位
大数据时代十大热门IT岗位,新的想法诞生新的技术,从而造出许多新词,云计算、大数据、BYOD、社交媒体、3D打印机、物联网在互联网时代,各种新词层出不穷,令人应接不暇。这些新的技术、新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能。另一方面,云计算和大数据乃至其他助推各个行业发展的IT基础设施的新一轮部署与运维,都将带来更多的IT职位和相关技能技术的要求。
毫无疑问,这些新趋势的到来,会诞生一批新的工作岗位,比如数据挖掘专家、移动应用开发和测试、算法工程师,商业智能分析师等,同时,也会强化原有岗位的新生命力,比如网络工程师、系统架构师、咨询顾问、数据库管理与开发等等。下面分别为大家介绍着十大IT技能所体现的工作岗位:
一、算法工程师
何万青博士曾经介绍把一件事做快做好的三种方法,其中就提到过“提高流水线效率、更好的算法和更短的代码关键路径。”可以看出算法在系统效率中的轿碰重要地位。算法是让机器按照人类设想的方式去解决问题,算法很大程度上取决于问题类型和工程师对机器编程的理解,其效率的高低与算法息息相关。
在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。在大数据时代,算法的功能和作用得到进一步凸显。比如针对公司搜索业务,开发搜索相关性算法、排序算法。对公司海量用户行为数据和用户意图,设计数据挖掘算法。
算法工程师,根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。另外数据挖掘、互联网搜索算法这些体现大数据发展方向的算法,在近几年越来越流行,而且算法工程师也逐渐朝向人工智能的方向发展。
二、商业智能分析师
算法工程师延伸出来的商业智能,尤其是在大数据领域变得更加火热。IT职业与咨询服务公司Bluewolf曾经发布报告指出,IT职位需求增长最快的是移动、数据、云服务和面向用户的技术人员,其中具体的职位则包括有商业智能分析师一项。
商业智能分析师往往需要精通数据库知识和统计分析的能力,能够使用商业智能工具,识别或监控现有的和潜在的客户。收集商业情报数据,提供行业报告,分析技术的发展趋势,确定市场未来的产品开发策略或改进现有产品的销售。
商业智能和逻辑分析技能在大数据时代显得特别重要,拥有商业知识以及强大的数据和数学分析背景的IT人才,在将来的IT职场上更能获得大型企业的青睐。不过这些技能并不是一般人都能掌握的,一些公司目前正在招聘统计学家并教授他们有关技术和商业的知识。
三、数据挖掘工程师
数据挖掘工程师,也可以叫做“数据挖掘专家”。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
数据挖掘专家或者说数据挖掘工程师掌握的技能,能够为其快速创造财富。当年亚马逊的首位数据挖掘工程师大卫·赛林格(DavidSelinger)创办的数据挖掘公司,将类似于亚马逊的产品推荐引擎系统销售给在线零售和广告销售商,而这种产品推荐引擎系统,也成为亚马逊有史塌帆中以来最赚钱的工具。数据挖掘的价值由此可见一斑。
四、咨询顾问(专家)
任何业务部门和任何行业企业,都有IT系统在背后默默无闻地支撑着。在云计算大数据时代,业务面临的挑战和机遇也会给IT系统带来更多要求。在这种情况下,IT系统的规划部署和运维,都要有更为精通的专业人士才能胜任,并满足面向未来大数据分析、云计算服务应用的需要。
纽约蒙特法沃医疗中心(center)的副主席杰克-沃夫(JackWolf)曾经表示,他寻求不仅会建立和使用系统而且还会给予其他员工技术支持的新员工,他说:"新的系统意味着你必须有更多的咨询台来处理更多的咨询量。"当然,这里体现的主要是某个系统的技术支持的功能,但管中规豹我们不难发现,无论是部署初期的物料采购还是运维过程中的金玉良言,都凸显出这种技术咨询顾问的重要性。
五、网络工程师
网络工程师可以说是一个“绿色长青”的职业,网络技术一直以来就处于团山急需之中,美国人力资源公司罗勃海佛国际(RobertHalf)第三季度IT招聘指数和技能报告指出,网络管理占总需求技能排名中的第二位。对于云计算时代来说,网络在云资源池中(计算、存储、网络)更是扮演着更为重要的作用。
另一方面,IPv6标准、物联网、移动互联等蓬勃发展,使得对于网络工程师尤其是新型网络工程师(移动、IPv6、云计算方向)的人才和技能要求也越来越多。网络工程师也因此而可以细分成多个发展方向,相应的技能要求其侧重也有所不同。比如网络安全、网络存储、架构设计、移动网络等等。
六、移动应用开发工程师
移动应用开发,会随着移动互联网时代的到来变得更受追捧。截至2012年底我国已经有10亿手机用户,移动智能终端用户超过4亿,在移动支付、移动购物、移动旅游、移动社交等方面涌现了大量的移动互联网游戏、应用和创业公司。
移动平台智能系统较多,但真正有影响力的也不外乎iOS、Android、WP、Blackberry等。大量原来PC和互联网上的信息化应用、互联网应用均已出现在手机平台上,一些前所未见的新奇应用也开始出现,并日渐增多。
移动应用开发,由于存有多个平台系统,因此不同的平台开发者其所面临的机遇和挑战也不尽相同。一个很明显的例子就是,当初由Google公司和开放手机联盟领导及开发的基于Linux的安卓系统,在开源之后就给广大开发者(商)带来巨大商机,而坚定选择iOS平台的的开发工程师,也通过苹果生态系统的不断扩建和智能设备的高市场占有,使得较早的一批开发者都赚得盆满钵满。不过在国内由于用户习惯、产业环境和版权保护的问题,移动应用开发者并没有因此而获得相应的收益。
七、软件工程设计师
近年IT业界逐渐涌现出一股软件定义网络(SDN)、软件定义数据中心、软件定义存储(SDS)和软件定义服务器(MoonShot)等浪潮,大有软件定义未来一切IT基础设施的趋势。
PaaS、SaaS、数据挖掘和分析、数据管理和监控、虚拟化、应用开发等等,都是软件工程师大展身手的好舞台。相应的,这些技术领域也对软件工程师的要求会更高,尤其是虚拟化和面向BYOD、云计算、大数据等应用的开发和管理,都需要有更高深的技术支撑。
和算法工程师有点类似的地方在于,软件工程师也需要注重设计模式的使用,一位优秀的工程师通常能识别并利用模式,而不是受制于模式。工程师不应让系统去适应某种模式,而是需要发现在系统中使用模式的时机。
八、数据库开发和管理
数据库开发和管理在大数据时代显得尤为重要,相关的数据库管理、运维和开发技术,将成为广大BI、大型企业和咨询分析机构特别看重的技能体现。代表着更多类型(尤其是非结构化类型)的海量数据的涌现,要求我们实时采集、分析、传输这些数据集,在对基础设施提出严峻挑战的同时,也特别强调了数据库开发和管理人员的挑战。
比如分布式的、面向海量数据管理的数据库系统之一NoSQL,就是面向大数据领域的非关系型数据库的流行平台,高可用、大吞吐、低延迟、数据安全性高等应用特点成为了很多企业的看重的特点,并希望有足够多的优秀IT开发人员深度开发NoSQL系统,解决对存储的扩容、宕机时长、平滑扩容、故障自动切换等问题的困恼。
另外,更为知名的Hadoop分布式数据库HBase的数据管理,需要借助HRegion、HMaster、HClient组成的体系结构从整体上管理数据。这些也都需要有对Hadoop深刻理解和业务的精通才能胜任。而除此以外的大数据的存储管理、内存计算、包括基于这些应用上的平台开发等等,也得会越来越受市场欢迎。
九、系统架构师
去年三星首席系统架构师吉姆·莫加德(JimMergard)跳槽至苹果,属于近期比较大的系统架构师人事变动,这种变动也说明了当今对于系统架构师的高度重视和认可。
众所周知,云计算和大数据的出现,使得传统的数据中心基础设施难以胜任;另一方面,日益激烈的市场竞争和移动互联等商机的出现,势必会给企业业务带来深刻变革。这种变革和IT架构转型,都会牵扯到IT系统架构这个核心问题。相比之前介绍的那些IT技能和所对应的岗位,系统架构师的规划部署能力显得尤为重要,它牵扯的是整个面而不是某个领域某个点的痛点。
十、系统安全师
同样的,网络、计算、存储还是系统架构,也都需要关注安全问题,而安全在现在的云计算环境下,个人隐私和企业敏感数据的保护也不断被强化。
在当前很多企业都收缩IT安全预算开支后,还不断面临着增强的合规要求等问题。企业们都在考虑是否应当将某些IT运营交给云端服务提供商处理。实际上,每个人都深感压力,预算不够地情况下还要尽力防护数据地安全,特别是中小型企业,这也就意味着企业需要将部分IT运转外包给第三方以减少资金和人力方面地投资。
即使不采用外包的形式,无论个人还是企业都会更加注重安全,因为“安全”本身是没有行业限制和划分的,尤其是企业在构建云计算环境、提交或者收集海量数据进行处理分析、存储和传输等等一系列环节,都会面临新的挑战。这种挑战势必会需要有更多更专业的技术人才帮助解决这些问题。相比传统来说,系统安全师将更多的会结合具体的业务展开,而根植于系统平台和底层基础设施的系统安全,则更多的会出现在运营
⑺ 天河二号超级计算机的应用领域
天河二号已应用于生物医药、新材料、工程设计与仿真分析、天扒宽气预报、智慧城市、电子商务、云计算与大数据、数字媒体和动漫设计等多个领域,还将广泛应用于大科学、大工程、信息化等领域,为经济社会转型升级提供重要支撑。
天河二号逐步在生命科学、材料科学、大气科学、地球物理、宇宙、经济学,以及大型基因组组装、基因测序、污染治理等一系列事关国计民生的大科学、大工程中“大显身手”。此外,国家超算广州中心积极推动国际交流与合作,利用天河二号为国外研究机构提供高性能计算服务。
据悉,科技部近年不断加大对超算应用软件研发的投入。“十二五液此搜”以来的相关研发投入已超过2亿元。预计“十三五”期间投入将进一步加大。
根据该专项“面向大规模科学计算的高性能多核CPU”课题计划安排,2011年中国将采用FT-1500CPU构建全自主国产千万亿次计算机——“天河二号”。
借助天河二号的“计算神功”,国产C919大型客机开展了高精度外流场气动计算;中科院上海药物研究所开展了75万个小分子化合物的结合亲和力评估,完成了600多个各类药物的体内外活性测试评价。天河二号适配了广州市电子政务数据管理系统和云盘存储系统闹历等,为智慧城市建设搭建高效可靠的承载平台……
⑻ 云计算中心的中国国家超级计算中心
现有国家级的云计算中心5家:
天津云计算中心(2009年)
国家超级计算天津中心是由国家科技部于2009年5月批准成立的第一家超算中心,由天津滨海新区和国防科技大学共同建设。
天津超算中心座落在天津经济技术开发区(泰达)外包服务园5号楼,占用房屋面积约8,500平方米,共建有2个大型机房共约4,000平米,其中一个机房用于安放“天河一号”超级计算机,第二个机房用于云计算和系统扩充。另外建有变电站、制冷站,变电站供电能力为13,600KVA,制冷站供冷能力为9,600KW,具有较强的配套保障能力。
天津超算中心的主业务计算机是 “天河一号”超级计算机,是由科技部863计划“高效能计算机及网格服务环境”重大项目支持,由国防科技大学与滨海新区于2009年9月联合研制成功第一期系统;后经采用自主CPU和自主的高速互联通信系统,以及全面优化,于2010年10月,研制完成了“天河一号”二期系统。“天河一号”超级计算机在2010年11月世界超级计算机Top 500排名中荣获世界第一。
天津超算中心高性能计算的主要应用领域包括:生物医药、石油地震勘探数据处理、动漫与影视渲染、新材料新能源、高端装备设计与仿真、航空航天、流体力学、天气预报、气候预测、海洋环境模拟分析等等。 2009年5月批准成立,2011年6月安装调试,同年11月,超算中心投入运行启动仪式;2012年6月,正式向社会提供高性能计算业务的商业服务;截止至2014年5月,计算资源使用率已超过55%,高性能计算用户达到1,056个,云计算个人用户超过1,750,000人,机构达到13,221家。
国家超级计算深圳中心(深圳云计算中心)是国家在深圳布局建设、深圳建市以来单个投资额最大的重大科技基础项目。该项目是国家863计划,广东省和深圳市重大项目,同时也是深圳落实《珠江三角洲改革发展规划纲要(2008-2020)》和《深圳市综合配套改革方案》的具体行动。
国家超级计算深圳中心(深圳云计算中心)主机系统于2010年5月经世界超级计算组织实测确认,运算速度达每秒1,271万亿次,排名世界第二。同时配备高达17.2PB的海量存储及来源于各大运营商、教育网的丰富网络带宽资源。
深圳市建筑工务署介绍,超算中心的土建工程相对复杂,机房楼精密空调、冷水机组、冷却塔、高低压柜等设备安装量是相同面积普通建筑的10倍,工程配置了光缆30公里,6类网线200公里,大楼内强电电缆达15公里。超算主机等设备冷却水日用水量超过1,000立方米,接近一个标准游泳池容量。超算中心采用不间断电源为主机供电,仅电池就有2,874组,相当于2.3万块汽车蓄电池总容量。工程自2010年9月进场施工,实际工期仅一年零三个月。
国家超级计算深圳中心(深圳云计算中心)立足深圳、面向全国、服务华南、港、澳、台及东南亚地区,开展各种大规模科学计算和工程仿真、动漫渲染等计算业务,同时以其强大的数据处理和存储能力为社会提供云计算服务,将建成功能齐全、平台丰富、高效节能、国际一流的高性能计算研究开发中心和云计算服务中心 。 国家超级计算长沙中心2011年试运行,2014年11月4日,揭牌正式运营 。继天津和深圳之后获批建设的第三家国家级超级计算中心。与国内其他超级计算中心不同的是,长沙超算中心完全依托高校运营。
选址:湖南大学校区内,采用国防科技大学“天河一号”高性能计算机,按每秒1000万亿次运算能力规划建设,总投资7.2亿元。国家超级计算长沙中心一期工程规划建筑面积30000平方米,计划于2011年底全部建成竣工,建成后运算能力将达每秒300万亿次,由湖南大学负责运营,国防科技大学提供计算设备和技术支持,坚持公益性与经营性相结合原则,为社会和公众提供高性能计算应用服务。
该中心自2011年试运行以来,已为气象、国土、水利、卫生/医疗、交通等公共服务部门提供了高性能的计算平台服务。该中心与国内高性能计算、云计算和动漫渲染领域机构建立了战略合作关系,已在省内外一些大型企业平台进行试用,正式运营后,将面向全国装备制造企业提供大规模仿真设计公共服务。
于2010年11月奠基开工,按照“政府主导、军地合作、省校共建、市场运作”的模式积极推进项目建设。项目主机设备于2011年6月在国防科大全面上网试运行,项目主体建筑工程于2013年7月竣工一次验收合格,同时,主机设备从国防科大搬迁至湖南大学新址,并完成安装调试,已具备了正式启动运营的基本条件。 国家超级计算济南中心是科技部批准成立的全国4个千万亿次超级计算中心之一,总投资6亿元,建设主体为山东省科学院,并由其下属单位山东省计算中心负责建设、管理和运营。
济南中心于2011年3月正式启动建设,当年10月27日落成揭牌并对外提供计算服务。济南中心的建设成功,标志着我国已成为继美国、日本后第三个能够采用自主处理器构建千万亿次超级计算机系统的国家。经国家权威机构测试,济南中心的神威蓝光超级计算机系统持续性能为0.796PFlops(PetaFlops,千万亿次浮点运算/秒),LINPACK效率为74.4%,性能功耗比超过741MFlops/W(百万次浮点运算/秒·瓦),组装密度和性能功耗比居世界先进水平,系统综合水平处于当今世界先进行列。
济南中心依托山东省科学院组建了一支集技术研发、计算服务和技术支持于一体的科研和服务团队,并与国内外专家、应用单位等密切合作,面向海洋科学、现代农业、油气勘探、气候气象、药物筛选、金融分析、信息安全、工业设计、动漫渲染等领域提供计算和技术支持服务,承接国家、省部等重大科技或工程项目,为我国科技创新和经济发展提供平台支撑。中心定位:公益性高性能计算技术和咨询服务机构。 北京超级云计算中心位于北京怀柔雁栖经济开发区,由北京市和中科院合作共建,于2014年6月宣布将正式对外提供超级云计算服务。
北京超级云计算中心一期提供每秒300万亿次计算能力,2015年的计算能力将达每秒2000万亿次。中科院超级计算中心主任迟学斌表示,该中心的成立将进一步深化中科院与怀柔区的合作,并加快中科院高精尖成果在怀柔区的转化落地。 吕梁云计算是在国家推动军民融合深度发展的背景下,国防科技大学和吕梁市人民政府结合优势特色首批重点建设项目,按照山西省委书记王儒林提出的“吕梁云计算中心立足吕梁,服务山西,辐射全国 ”的总要求,打造面向全国的高性能计算平台、面向山西及周边省份的云服务平台和面向华北地区的数据容灾备份中心,服务于地区的科学研究、经济建设、政府公共管理和信息安全,将逐步成为中西部地区科学创新、产业转型的重要IT基础设施。中心部署的业务主机为“天河二号”,该主机系统采用国防科大自主研制的CPU和操作系统,运算速度为3280万亿次/秒。服务器集群系统包括1216台X86服务器集群和4096个飞腾服务器。中心现有存储总容量为7PB,未来将扩展到10PB;在网络保障方面,中心接入联通、电信、移动、教育网四线网络,并依托运营商直接接入国家西北地区骨干网,独享带宽可最大拓展到50G。整体来说,吕梁云计算中心具备高配置硬件及先进的云计算技术,计算能力强、存储空间大、网络接入能力多维,同时,中心依托国防科技大学建立了高度可靠的信息安全体系,用户的数据安全有保障。
⑼ “东数西算”的智慧大脑!26座城市抢建智算中心
智东西(公众号:dxcom)
作者 | 杨畅
编辑 | 李水青
智东西2月25日消息,近日,“东数西算”国家项目正式启动,为数据中心产业带来了重要利好信号。(《 历史 时刻!“东数西算”国家工程全面启动》)
作为数据中心中领域的一颗“明珠”,智算中心也引起行业关注。
一般认为,智算中心全称是人工智能计算中心,主要是为人工智能(AI)应用提供所需算力服务、数据服务和算法服务,由AI芯片和算力机组等设备组成,与云计算中心、超算中心有一定区别。企业和研究机构可以依托智算中心提供的强大算力,驱动AI模型进行数据深度加工,实现AI应用创新。
“东数西算”国家项目强调在京津冀、长三角、成渝等八大枢纽间建设算力网络,支持全国各地日益增长的算力需求。而沿着这张算力网络“地图”,我们发现智算中心已经“遍地开花”。
细数过来,从2021年到2022年开年,全国有不下20座城市建成或正在建智算中心,智算中心数量达到27个,而其中位于八大枢纽的就有12个,接近50%。
“东数西算”工程国家算力枢纽节点范围内的智算中心
那么具体有哪些城市在建设或者规划建设智算中心?“东数西算”工程会对智算中心带来什么样的影响?各地智算中心项目建设进度如何?可能会对当地AI产业有何影响?
智东西通过调查2021年以来各地规划、建设和建成的智算中心,并与业内人士交流,来与大家一起探讨这些问题。
据智东西统计,从2021年1月1日到2022年2月15日,全国共有至少26个城市在推动或刚刚完成当地智算中心的建设,这些城市中既有省会城市,例如南京、西安,也有非省会城市,像许昌、青岛。
其中,不少城市已经在本地建设了像大数据中心、云计算中心、国家超算中心等信息基础设施。不过这些中心并不能替代智算中心,它们之间的功能存在差异——像云计算中心,主要是提供云服务,超算中心主要为科学研究提供超算服务,智算中心则主要是为企业和科研院所提供普惠AI算力服务。
此外,中信所《人工智能计算中心发展白皮书(2021)》中指出,智算中心借鉴了超级计算(高性能计算)中心和云计算数据中心大规模并行计算和数据处理的技术架构,但它是以AI专用芯片为计算算力底座的。上述三类中心的软件和业务架构不一样,不过云数据中心和超算中心也可以通过延展建设,来对外提供智能算力。
据我们统计,2021年,全国建成并投入运营或试运营的智算中心有8个,分别是武汉人工智能计算中心、合肥先进计算中心、南京智能计算中心、中国电信京津冀大数据智能算力中心、浙江(长三角)新一代全功能智能超算中心、西安未来人工智能计算中心、中原人工智能计算中心、哈尔滨人工智能先进计算中心,投运时间分别是5月、6月、7月、8月、9月、9月、10月和12月。这些智算中心中大部分都有二期建设规划。
截至目前,2021年和2022年各地投入运营的智算中心情况
一些智算中心并没有直接用“智算中心”或“人工智能计算中心”命名,而是采用“先进计算中心”或“智能超算中心”的命名方式,但它们也提供智能算力,所以也可以算作智算中心,例如合肥先进计算中心和浙江(长三角)新一代全功能智能超算中心。
不同智算中心的测算算力时采用的算力测试基准有所差别,使用算力单位略有不同,但是无论是“1 P OpS”、“1 PFLOPS FP16”、“1 Petaflops”还是“1 P”,都相当于每秒可进行一千万亿次运算。
2022年开年以来,国内已经有一个新投运的智算中心,是位于上海的商汤 科技 人工智能计算中心。
很多城市是正在建设智算中心,从2021年1月1日到2022年2月15日,全国共有至少18个城市签约、开工、招标、计划建设智算中心项目,其中已经宣布开工建设的至少有6个城市,分别是合肥、庆阳、大连、沈阳、深圳、长沙。
截至目前,2021年和2022年各地规划或已经开始建设的智算中心情况
对比2021年之前的各地智算中心建设情况来看,2020年之前的智算中心项目更少一些。不过,部分2021年开工建成的智算中心其实在2020年就已经立项招标和预研规划,比如武汉人工智能计算中心项目。
智算中心并不是2021年才有的新类型数据中心,我国较早建成的智算中心还有深圳鹏城云脑、旷视芜湖AI超算中心等。2018年,鹏城云脑I初步建成并上线运行,算力达到100 PFLOPS(1 PFLOPS相当于每秒运算能力为一千万亿次)。
从全国智算中心的地理位置分布来看,目前,东部、中部和西部都有省市在部署智算中心。作为数据中心的一种,各地的智算中心建设规划难免会受到“东数西算”政策的影响。
特别是国家发改委等部门在《全国一体化大数据中心协同创新体系算力枢纽实施方案》等文件中指出:“原则上,对于在国家枢纽节点之外新建的数据中心,地方政府不得给予土地、财税等方面的优惠政策。”智算中心作为各地政府主导的项目,极有可能受到影响,但是并不一定会大批向西部地区迁移。因为智算中心主要面向AI相关产业,这些业务对于网络通信的要求也比较高,在这方面,东部地区略有优势。
中科曙光高级副总裁任京旸告诉智东西,“东数西算”工程会促进智算中心的发展,预计在全国一体化算力网络国家枢纽节点建设中,规划的数据中心项目会配置一定规模的智能算力,有些项目还可能是直接以智算中心的形态出现。
另外,从这些智算中心公布的算力规模情况来看, 100P算力是很多智算中心的起步目标 。
一般认为,100P大约相当于5万台高性能电脑的算力。拿科研场景为例,天文学家在20万颗天体的星空图中要定位某种特征星体,如果算力不够,耗时可能要超100天,如果拥有100P算力,定位星体所需时间仅为100秒。
任京旸说,一般智算中心提到的100P是指FP16或INT16,即半精度算力,就现阶段而言,以100P起步,能实现比较大的规模效益。
从需求角度看,智算中心作为城市级公共算力平台,要满足区域内政府、企业、高校等各类用户的算力需求,起步规模不宜过小,否则无法支撑类似大模型训练等大算力需求,也不足以发挥集约共享的规模效益。
任京旸补充道,从投资角度看,智算中心发展尚处于初期阶段,建设、运营、应用与生态建设等投入较大,需要结合地方财政承受能力做出合理评估,根据实际需求进行适度的超前部署。
大部分智算中心都是分期建设的,建成一期,就可以投入运营一期,后期再根据运行情况和产业发展需求进行二期、三期建设。
例如武汉人工智能计算中心,该智算中心在2021年5月完成了一期项目建设工作,并开始为企业提供AI算力,但很快饱和了。于是,武汉人工智能计算中心又进行了二期项目扩容工作,将算力规模从100P扩容到200P。武汉人工智能计算中心相关负责人在接受媒体采访时说,现在二期算力也接近饱和,随着准备进行进一步的算力扩容工作。
武汉人工智能计算中心
根据各智算中心的数据,至少数百家企业已经签约智算中心,例如武汉人工智能计算中心已经为多家高校和科研院所、100多家企业提供算力,南京智能计算中心已经吸引超40家产学研机构入驻。
一个智算中心可以同时支撑的产业场景很多,例如自动驾驶、智慧医疗、智慧城市、智慧交通、智慧矿山、智能制造等等,主要看当地的需求,一般都是为了支撑当地的优势产业更好发展。比如,青岛靠近海域,其人工智能计算中心招标文件就有提到青岛人工智能计算中心要支撑青岛优势产业集群,比如智能家居、智能制造等产业智能化持续领先,并着重强调支撑当地智慧海洋经济的发展。
上述智算中心都并不局限于支撑单一产业。不过,也有一些城市选择建设针对性更强的智算中心,像山西晋城建设了专门面向煤炭行业的智算中心(智能矿山创新实验室创新成果&计算中心)。该智算中心由华为、晋能控股等企业参与建设,主要是为推动山西煤矿智能化建设。
智能矿山创新实验室创新成果&计算中心
在智算中心建设过程中,市政和建筑设计企业背后的AI和ICT企业是重要角色,例如曙光、华为、浪潮、腾讯、商汤 科技 等企业。
在 探索 智算中心过程中,作为计算领域的头部玩家曙光提出了“5A级”智算中心建设方案,从开放、融合、绿色、普惠、服务五个方面,进行智算中心相关的实践和 探索 。目前,曙光5A级智算中心已在广东珠海、安徽合肥、浙江桐乡等地陆续落成,其江苏昆山等地的智算中心也进入建设阶段。
合肥先进计算中心
曙光智算中心会采用兼容多种芯片、算法、模型等的多元协作方式以实现多元算力提供。例如曙光参建的合肥先进计算中心不仅能提供智能算力,还能提供高性能计算所需算力。在降低智算中心、数据中心能耗方面,曙光研发有浸没式相变液冷技术,可使智算中心的PUE值降至1.04到1.05。
华为应该是比较早尝试智算中心的企业,而且也是参与各地智算中心建设最多的企业之一。华为升腾计算业务总裁许映童曾在2021世界人工智能大会期间透露,华为希望在2021年内启动超20个智算中心建设。
包括“鹏城云脑II”、“武汉人工智能计算中心”在内的几个华为承建的智算中心项目几乎都是使用华为的Atlas 900 AI集群架构,来实现AI算力供给的。Atlas 900 AI集群架构是由数千颗升腾910 AI处理器构成,其总算力达到256P 1024 PFLOPS FP16。
鹏城云脑
浪潮在智算中心方面也有多年的研究,无论是智算中心运行过程中算力生产、算力聚合、算力调度还是算力释放环节,浪潮都分别有相应的技术和软硬件支撑。南京智能计算中心就是采用了浪潮AI服务器算力机组和寒武纪思元270和思元290智能芯片及加速卡。
南京智能计算中心
作为数据中心行业的重要玩家,腾讯将其在数据中心方面的 探索 应用在了智算中心建设中,像腾讯智慧产业长三角(合肥)智算中心建设中就用到了腾讯第四代T-Block等高端模块化技术,支持项目快速交付。腾讯第四代T-Block等高端模块化技术就是将IT、空调等数据中心的各个功能模块化,以实现按需灵活配置。
商汤 科技 是从2018年开始进行人工智能计算中心预研工作的,2020年7月开始商汤 科技 人工智能计算中心建设工作。2022年1月24日,商汤 科技 人工智能计算中心启动运营。商汤 科技 人工智能计算中心的峰值算力高达3740 Petaflops,这背后包含了商汤 科技 的多种技术突破,包括高性能计算、分布式调度、硬件/软件协同设计等。
商汤 科技 人工智能计算中心
我们通过调查2021年以来建设和建成的智算中心,发现越来越多的城市已经开始了智算中心建设。这体现了各地对于AI产业的重视。从一些现有的智算中心建设工期来看,一般一期建设大概时间在半年到一年不等,今年可能会有更多在建的智算中心建成并投运。另外,“东数西算”工程也会对新的智算中心的规划、建设产生多重影响。
目前参与智算中心建设的企业相对有限,随着各地对智算中心建设需求的增加以及一些新玩家加入,智算中心领域玩家可能会面临更激烈的竞争。
⑽ 关于计算机专业方向的选择
其实都差不多。我的导师跟我说。现在计算机的出来要么搞编程要么就搞网管。
但是网管的发展不大。但是编程很伤身体。各有利弊吧。
还有现在那些大四的师兄跑招聘会的和我说。现在那些计算机相关的公司也是很多是在招软件研发的人才。但是很多人不愿意做凳穗因为太伤身体。呵呵。不过你要是很强的话。那两个都有发展的哈。
另外。我们学校计算机研究所的所长和我说。现在硬件已经发展到巅毁粗散峰了。所以更侧重软件方面。所以软件还是发展大点。等你毕业了出来搞几年编程,然后好的话几年后就做到管理层了。
最后。纤氏不管选什么都要好好学。学好了就不怕了。祝你好运哈。