“天河二號”副總設計師 肖立權:創新鑄就超算“中國速度”

湘江畔的國防科技大學正值暑期,校園裏靜悄悄的,但校內的 “天河”大樓機房內卻一派熱鬧景象。長達數十米的機殼整齊排列著,發出高速運轉的低沉“嗡嗡”聲,指示燈明暗交錯,“天河二號”副總設計師肖立權正帶領團隊攻關新一代高性能電腦,向新的“中國速度”發起衝鋒。

1997年,博士畢業留校的肖立權成為國防科技大學電腦學院電腦研究所的一名科研人員。從那時起,他就與巨型機一起成長。他參與了“銀河”“天河”高性能電腦多代機型的研製,從一名普通的科研人員一步步成長為國防科技大學超級電腦團隊的核心骨幹。

“走別人沒有走過的路很難,但我喜歡挑戰!”這是肖立權常説的一句話。20世紀末,大規模電腦系統中通常採用電互聯技術,傳輸速率低且易受干擾,影響系統穩定性。這是我國研製千萬億次級超級電腦路上的一塊絆腳石。

如何搬開這塊絆腳石?用光互聯替代電互聯是最優解決方案,研究所將這一重任交給了肖立權。這條別人沒有走過的路,註定充滿坎坷。

2003年,肖立權受領任務後,立即著手解決這項技術難題。然而,按照他的思路做出來的系統根本跑不起來。

“是哪出了問題?”那個夏天,肖立權滿腦子都在問為什麼,午休時閉上眼睛,腦海中也都是螢幕上滾動的數據。“沒法睡!去實驗室!”

肖立權架起示波器、邏輯分析儀,全神貫注觀察著,生怕錯過關鍵數據。

解決思路一次次提出,但又一次次推翻。有一天,肖立權突然冒出一個想法:是不是數據傳輸有問題?靈光突現,他一下找到了解決問題的“鑰匙”。由此,我國光互聯技術在大規模電腦系統中得到有效驗證,這為後續該技術在超級電腦系統中的應用奠定了堅實基礎。

此後,肖立權瞄準這一技術領域,啃下了一個又一個“硬骨頭”,解決了光互聯替代電互聯的系列技術難題,成功研製出我國首臺採用光互聯技術的並行電腦互聯通信系統,使傳輸速率從原有的400Mbps一路飆升為10Gbps,實現數量級飛躍。

2010年11月,“天河一號”憑藉優異性能登上世界超算500強榜首,中國超算首次問鼎世界超算桂冠;2013年6月,“天河二號”以峰值運算速度每秒5.49億億次,持續計算速度每秒3.39億億次,輕鬆摘得世界超算500強桂冠,我國超級電腦研製達到世界領先水準;2013年11月,“天河二號”蟬聯世界超算500強榜首……

作為“天河一號”“天河二號”的副總設計師,肖立權瞄準世界高性能電腦技術前沿,不斷探索創新,取得了豐碩成果。

高速互聯通信是決定大規模並行電腦系統實用效率的關鍵,美國對中國嚴格封鎖高速互聯技術轉讓。當時,“天河一號”在國內首次創新性地採用了CPU+GPU異構融合體系架構,其內部數萬個CPU和GPU需要通過互聯通信系統實現資訊交換,難度可想而知。組織並全面負責互聯通信系統自主設計研製任務的肖立權壓力很大。

闖關路很艱難,但肖立權走得很紮實。寒來暑往,他不僅協助制定系統的總體技術方案、技術路線和設計指導原則,還經常盯在試驗一線,從原理驗證到工程實踐,一個環節都不放過。在他的帶領下,團隊開展關鍵技術、核心技術攻關,成功將“天河一號”送上世界超算第一的寶座。

雖然獲得了國際聲譽,但肖立權沒有絲毫懈怠,他早已瞄準了運算速度更快的億億次超級電腦系統——“天河二號”。在原有基礎上,他帶領團隊進行了10個月的“封閉攻關”,“天河二號”高速互聯通信系統性能得到提升,是當時國際商用互聯繫統的兩倍。它可以把上萬顆微處理器聯繫起來,共同解決同一個計算問題,解決了高效互聯中“微處理器越多效能越低”的世界難題。

在這條自主創新的道路上,肖立權帶領項目組進行了長達1年的封閉設計工作,自主研製出互聯通信系統最核心的兩塊晶片:路由器和網路介面。

一台超級電腦系統好比一個大城市,互聯通信系統就是城市的公路網,路由器就是立交橋,網路介面就是主幹道出入口。一個城市公路網市政設施建設得再好,立交橋和主幹道出入口不設計好,城市交通依然擁擠不堪。

依靠自主創新,肖立權帶領團隊掌握了屬於自己的核心關鍵技術。這是“天河二號”在發展迅猛、競爭激烈的世界超算領域長時間保持領先地位的主要原因,一如TOP500主要撰稿人傑克·唐加拉所説:“中國自主研發了內部互聯技術,這是買不來的,這是他們基於晶片、路由器及自主生産的交換器開發出來的。”

“我們參加世界排名並不僅僅是為了得第一。世界超算500強榜單其實是一個交流平臺,只有在國際上有了聲譽,別人才願意和我們交流。”肖立權深知,只有自立自強,掌握自主核心關鍵技術,才能在國際上掌握髮言權,讓世界聽到來自中國的聲音,讓中國更好地了解國際前沿發展趨勢。

今年夏天,肖立權沒有放鬆,他正帶領團隊全力投入新一代高性能電腦的研製攻關,他的目標是,摘取“超級電腦的下一頂皇冠”。