从“玻璃房”到“太湖之光”,中国超级计算机的崛起之路

超级计算机,又称巨型机、高性能计算机。不同于一般个人使用的计算机,超级计算机聚集了数以千计万计甚至更多的处理器,可处理大量的数据和高速运算。

这么厉害的超级计算机到底可以做什么呢?上到军用的模拟核试验,下到民用的天气预测,远到太空探索,近到人类基因测序,都有巨大的计算量门槛,要想更快地得到计算结果,只能靠超级计算机。

而中国的超级计算机崛起之路,走的并不顺畅。

令人痛心的“玻璃房”

“这是中国科研工作者心中永远的痛......就像农民自家没粮,母亲自己没奶喂孩子。”当中国科学院院士、前国防科技大学校长杨学军回忆起中国从美国购买的第一台超级计算机时,阴郁的说道。

改革开放前后的中国,缺乏自研超级计算机的技术。整个国家结束了长时间的动荡,人才流失、技术落后,很难在计算机领域有所突破,更别提超级计算机了。

为进行石油勘测,中国石油工业部花大价钱购买了一台IBM 超级计算机。这是中国拥有的第一台超级计算机,但是用起来并没有那么舒心。

上个世纪80年代,西方国家正对中国进行高技术封锁,其中就包括超级计算机。美国虽然卖了超级计算机给中国,但依然严加监视以防核心技术泄密。买来的超级计算机被放在一间玻璃房内,房间钥匙由美方人员保管,中国科学家经过授权才能进入玻璃房,并且得在美方监视下上机操作。超级计算机运算的内容,必须经过美方允许。操作完成后,美方会马上封锁玻璃房。监控日志还要定期上交给美国政府审查。

虽然自己花了钱,但是还要看别人脸色才能使用。由于使用这台超级计算机还要收到美方的监控,所以很多机密内容都不能借助这台机器来计算。

起步于“银河”

中国国家层面的超级计算机自研事业始于1978年。

那一年,邓小平在全国科学技术大会上的一句“中国要搞四个现代化,不能没有巨型机”,开启了自研超级计算机的历史进程。

同年,国防科技大学接到了自研超级计算机的任务。中国计算机界的一代宗师慈云桂在接到任务后立下军令状,六年时间内,研发出运算速度1 亿次/秒超级计算机。

1亿次/秒的运算速度对于这个推动中国从电子管计算机到晶体管计算机,再到集成电路计算机的宗师来说也不是一件小事。那时候,慈云桂团队研发的计算机系统运算速度只要二百万次/秒,距离目标很有相当远的路要走。

从硬件技术到阵列结构,慈云桂团队一点一点将中国自主研发的第一台超级计算机搞了出来。原定的冷液技术研发出现问题,临时改为冷风技术;2.5万条绕接线、12万个饶接点和200多万个焊点都经过研发团队逐一检查再三确认;计算机运算速度提不上去,就自己研发新的阵列结构。

最终,慈云桂团队通过创造性地提出“双向量阵列”结构圆满完成了军令状。而这时,距离六年之约还有一年的时间。

这台注定载入共和国史册的超级计算机被命名为“银河-I”,它的诞生打破了西方大国在超级计算机上的技术封锁,让中国成为继美国和日本后,世界上第3 个可以自主研制超级计算机的国家,也为中国在计算机科研领域争了一口气。

看到了“曙光”

1986年3月,也是中国科技发展史中值得纪念的时刻。包括杨嘉墀在内的4 位科学家上书邓小平等中央领导人,建议“跟踪世界战略性高技术发展”。邓小平对该建议表示了支持,很快“高技术研究发展计划”出炉,又被称为“863计划”。

在“863计划”中有个单独列出的主题项目306主题,即智能计算机。1990年,国家智能计算机研究开发中心正式成立。在成立之初,中心的路线是顺势而为走‘五代机’的路,但在执行过程中306 主题专家组发现,日本“五代机”主要目标是实现自然语言翻译,这个方向并不是很适合当时中国的国情。

经过讨论比较,中心发现美国的研发重点是个人计算机、高速工作站、超级计算机和互联网,这对于当时的中国来说更具有借鉴意义。继而专家组决定改变技术路线,负责这一主题的智能中心把研究方向从“智能计算机”调整为“高性能并行计算机系统”。

也正是这一决定,将“曙光“带到了中国。曙光一号研发过程中,当时智能中心的主任李国杰主导了全新的技术路线和科研模式。

最初,中国计算机研制周期短则5-6 年,长则7-8 年,往往机器研制出来就已经落后了,难以被市场所接受。为了改变这样的情况,李国杰派了一支6人小队到美国硅谷,利用国外协作配套完善的大环境,加速并行计算机的研制。同时,他在国内首次采用大规模集成电路来研制并行计算机。他还让团队在UNIX 源代码的基础上,自行设计并行操作系统SNIX。

李国杰的做法,直接提高了中国超级计算机的产品化和商品化程度。1993年 10月,曙光一号超级计算机诞生,峰值运算速度达每秒6.4 亿次。而且,曙光一号接研制经费只有200 万元、从正式开发到成果鉴定只有一年半、产品化程度高,与中国过去的超级计算机研制形成鲜明对比。

随后,智能中心又推出了包含曙光1000 和曙光1000A在内的曙光天潮系列,并且在经过产品化后逐渐走上商品化销售的道路。实现了国产超级计算机商品化零的突破,打破了进口产品对中国超级计算机市场的垄断。

至此,中国不再出现“玻璃房“的情况。

2004 年,曙光4000A诞生,峰值速度可达11.2 万亿次,位列世界第十,这是中国超级计算机首次进入世界前十。

璀璨的“天河“

2004-2006年间,中国最快的超级计算机曙光4000A,运行速度只有11.2 万亿次。但是,根据研究团队的计算,超级计算机的发展规律是每10 年性能提高1000 倍,到2010 年肯定会达到千万亿次级。

想要研发千万亿次级的超级计算机难度非常大,而一步从十万亿次跨越到千万亿次超级计算机不太实际。

所以,曙光和联想开始分别研究百万亿次超级计算机,为千万亿次超级计算机积累经验。然后中科院计算所和曙光、国防科技大学和浪潮、国家并行计算中心和无锡江南计算所分别研制千万亿次超级计算机。

2008 年,233万亿次的曙光5000A诞生,中国步入百万亿次级运算水平,并且是全球第二个有能力研制百万亿超级计算机的国家。

在那之后,一切都顺畅起来。国防科技大学和浪潮联合研制的千万亿次超级计算机分两期完成研制,2009年诞生了天河一号,峰值运行速度1206 万亿次。2010年,第二期天河一号 A研制成功。

在当年11月的 TOP500排名中,天河一号 A以每秒 4700万亿次的峰值运行速度、2566万亿次持续运行速度值,把美国的橡树岭国家实验室的美洲虎比了下去。中国自研的超级计算机,第一次在超级计算机TOP500 榜单中名列第一。

中国“芯“的”太湖之光“

2015年,美国将国防科技大学、国家超级计算长沙中心、国家超级计算广州中心和国家超级计算天津中心列入到实体清单里。从天河系列到曙光系列和神威系列(江南计算技术研究所),中国超级计算机三大系列全部受到美国制裁。制裁旨在卡住中国超算的“脖子”,封锁最关键的芯片。

国防科技大学2015 年被美国列入实体名单后,采用英特尔至强处理器的天河二号,原定的升级计划马上被打断。

而2016年 6月诞生的“神威·太湖之光“则没有这方面的顾虑,因为它采用的是中国自研CPU “申威”。

2003年,当中国自研超级计算机还处在万亿次阶段时,江南计算技术研究所为解决在超算和国防、信息安全领域的芯片困境,就已经开始设计自己的高性能芯片,并且成功研发出“申威”系列芯片。

国家希望能采用另一种技术路线来研制新的超算。新超算从布局之初的思路就是要打造拥有全国产架构、自主可控的软硬件。

现在,超级计算机领域竞赛焦点已经是一百亿亿次/秒级别超算的研发,而中国为此正在准备的三个方案,全部使用国产CPU 和加速器。

从“玻璃房“到”太湖之光“,中国用了四十多年的时间,开启了中国超级计算机的崛起之路。

打开APP阅读更多精彩内容