在美國(guó),exascale(百億億次)高性能計(jì)算系統(tǒng)的第一步始于2007年的一系列專(zhuān)題研討。直到15年后,橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室才真正上線1686 petaflops的“Frontier”系統(tǒng)。今年,阿貢國(guó)家實(shí)驗(yàn)室正準(zhǔn)備為“Aurora”啟動(dòng)上線儀式,這將是美國(guó)第二或第三臺(tái)百億億級(jí)超算設(shè)備——究竟位次如何,還要看勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的“El Capitan”何時(shí)通電。
這些百億億級(jí)超算的誕生之路充滿(mǎn)了延誤和挫折,期間還遭遇過(guò)技術(shù)變革、中國(guó)的競(jìng)爭(zhēng)壓力及其他挑戰(zhàn)。阿貢國(guó)家實(shí)驗(yàn)室環(huán)境與生命科學(xué)計(jì)算實(shí)驗(yàn)室副主任Rick Stevens則表示,更進(jìn)一步的zettascale、甚至是量子計(jì)算目標(biāo)可能落地更慢,二者很可能都需要15到20年、甚至是更加漫長(zhǎng)的開(kāi)發(fā)周期。
而這,正是高性能計(jì)算的本質(zhì)所在。
(資料圖)
Stevens在最近一場(chǎng)網(wǎng)絡(luò)研討會(huì)會(huì)上這樣描述HPC計(jì)算的近期和遠(yuǎn)期發(fā)展態(tài)勢(shì),“這將是一場(chǎng)持久戰(zhàn)。如果大家只關(guān)注明年會(huì)發(fā)生什么,那HPC明顯不適合你。如果你想著眼于10年甚至20年的中長(zhǎng)周期,那HPC才是最佳選擇。至于向著其他恒星系探索,那就是超遠(yuǎn)期的千年大計(jì)了??傊?,我們目前才剛剛起步,之前還能沿著摩爾定律前進(jìn),但現(xiàn)在最重要的問(wèn)題是思考10年后的高性能計(jì)算會(huì)是什么樣子?20年后呢?可能到時(shí)候情況已經(jīng)完全不同的,我們當(dāng)下就需要做好準(zhǔn)備?!?
Stevens此次演講的主題在于AI。不只是HPC應(yīng)用程序和研究工作能夠從AI技術(shù)中受益2,AI管理的模擬與智能體、專(zhuān)用AI加速器乃至AI在大型系統(tǒng)開(kāi)發(fā)中的作用都有巨大的想象空間。他指出,2019年至2022年間既是COVID-19突然爆發(fā)的危機(jī)時(shí)刻,也是AI大事頻發(fā)的歷史性階段。
隨著大語(yǔ)言模型(廣受歡迎的ChatGPT及其他生成式AI聊天機(jī)器人都以此為基礎(chǔ))和Stable Diffusion文本到圖像深度學(xué)習(xí)的起飛,AI技術(shù)已經(jīng)被納入蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、開(kāi)放式數(shù)學(xué)問(wèn)題和各類(lèi)HPC開(kāi)發(fā)場(chǎng)景。也正是在此期間,百億億次超算系統(tǒng)開(kāi)始真正落地。
Stevens表示,“越來(lái)越多的機(jī)構(gòu)開(kāi)始構(gòu)建自己的大語(yǔ)言模型,這波爆發(fā)式增長(zhǎng)仍在繼續(xù),而且?guī)缀跛心P投技性谒綘I(yíng)部門(mén)。其中只有少數(shù)是由非營(yíng)利性組織完成的,且以GPT-4為代表的最強(qiáng)模型大多采取閉源模式。由此可見(jiàn),AI模型的發(fā)展趨勢(shì)并未走向種類(lèi)繁多的小體量模型,而是數(shù)量有限的超大模型。這也是當(dāng)前階段內(nèi)最重要的元事件?!?
所有這一切——模擬與智能體、新興AI應(yīng)用和AI用例——都將在未來(lái)幾年內(nèi)消耗更多算力。伊利諾伊州的阿貢國(guó)家實(shí)驗(yàn)室的領(lǐng)導(dǎo)級(jí)計(jì)算設(shè)施(ALCF)項(xiàng)目考慮的正是這個(gè)問(wèn)題,規(guī)劃Aurora及之后的超算設(shè)計(jì)方向。Stevens和他的同事們正在構(gòu)想一套比Aurora強(qiáng)大8倍以上的系統(tǒng),征求建議書(shū)將于2024年秋季發(fā)布,實(shí)際裝機(jī)計(jì)劃在2028年或2029年。“對(duì)于機(jī)器學(xué)習(xí)這類(lèi)低精度運(yùn)算需求,這套系統(tǒng)預(yù)計(jì)將擁有近0.5 zettaflop,相當(dāng)于當(dāng)前系統(tǒng)的2到3倍。”
目前一大關(guān)鍵挑戰(zhàn),就是此類(lèi)系統(tǒng)到底要搭載怎樣的加速器。究竟是現(xiàn)有通用GPU的后續(xù)版本(針對(duì)AI模擬用例提供增強(qiáng)支持),還是面向AI優(yōu)化的其他全新引擎?
“這是最根本的問(wèn)題。我們知道模擬將繼續(xù)發(fā)揮重要作用,也需要性能和精度更上一層樓的技術(shù)規(guī)范,但這項(xiàng)技術(shù)在AI中到底占比多少仍沒(méi)有明確的答案。世界各國(guó)都在考慮下一代超算系統(tǒng)要如何權(quán)衡,特別是要以怎樣的態(tài)度側(cè)重于AI市場(chǎng)或AI應(yīng)用基礎(chǔ)?!?
ALCF使用來(lái)自Cerebras Systems、SambaNova Systems、GraphCOre、英特爾Habana Labs和Groq的系統(tǒng)構(gòu)建起AI測(cè)試環(huán)境,其中將采用專(zhuān)為AI工作負(fù)載設(shè)計(jì)的加速器,探索這些技術(shù)能否快速發(fā)展成熟并作為大規(guī)模超算系統(tǒng)的基礎(chǔ),以更高效率運(yùn)行HPC機(jī)器學(xué)習(xí)應(yīng)用。
“問(wèn)題在于,通用GPU在未來(lái)的用例下能否提供充足的性能支持并與CPU緊密耦合,證明其仍然是正確的解決方案?;蛘哒f(shuō),未來(lái)會(huì)很快出現(xiàn)其他更好的替代方案。”其中多租戶(hù)支持可能成為判斷的關(guān)鍵?!叭绻程滓嬲褂霉?jié)點(diǎn)內(nèi)的一個(gè)子集,那要如何同時(shí)支持子集內(nèi)的其他應(yīng)用?如何使用補(bǔ)充資源支持節(jié)點(diǎn)上應(yīng)用程序的具體占用?這類(lèi)需求中仍有很多懸而未決的現(xiàn)實(shí)挑戰(zhàn)?!?
目前值得考量的幾個(gè)現(xiàn)實(shí)問(wèn)題:
此外,新的大系統(tǒng)該如何構(gòu)建也是件麻煩事。一般來(lái)講,新的技術(shù)浪潮(例如冷卻或供電系統(tǒng)的變化)要求對(duì)整個(gè)基礎(chǔ)設(shè)施做出重大升級(jí)。Stevens表示,更加模塊化的設(shè)計(jì)理念(即更換組件但保留系統(tǒng)的整體架構(gòu))當(dāng)然更具意義。系統(tǒng)內(nèi)的模塊可能比目前的節(jié)點(diǎn)還更大,能夠定期更換且無(wú)需升級(jí)整個(gè)基礎(chǔ)設(shè)施。
“我們要構(gòu)想一個(gè)包含供電、冷卻,也許還有無(wú)源光學(xué)器件的基礎(chǔ)設(shè)施,之后就是可以頻繁更換的模塊,它們要具備簡(jiǎn)單接口來(lái)跟晶圓廠的制程節(jié)點(diǎn)對(duì)齊。另外還有電源連接器、光學(xué)連接器和冷卻連接器。我們正在認(rèn)真與供應(yīng)商開(kāi)展討論,考慮如何開(kāi)發(fā)這種模塊化設(shè)計(jì),爭(zhēng)取在未來(lái)兩年、而不是五年內(nèi)實(shí)現(xiàn)系統(tǒng)內(nèi)的組件升級(jí)?!?
考慮到能源部各科學(xué)實(shí)驗(yàn)室目前擁有的資產(chǎn),包括百億億級(jí)超算系統(tǒng)和數(shù)據(jù)基礎(chǔ)設(shè)施、大型實(shí)驗(yàn)設(shè)施和用于科學(xué)模擬的大型代碼庫(kù),ALCF正在加緊關(guān)注這些現(xiàn)實(shí)問(wèn)題。另外,原本為百億億級(jí)系統(tǒng)組建的跨領(lǐng)域、跨學(xué)科實(shí)驗(yàn)室團(tuán)隊(duì)也要利用起來(lái);Stevens介紹稱(chēng),之前的團(tuán)隊(duì)規(guī)模達(dá)到千人級(jí)別。
再來(lái)看自動(dòng)化因素。阿貢和其他實(shí)驗(yàn)室都掌握著超算系統(tǒng)和海量應(yīng)用程序。于是問(wèn)題來(lái)了:他們能不能找到覆蓋大部分工作的自動(dòng)化方法,例如創(chuàng)建和管理AI智能體,從而高流程更快、更輕松、更高效?這個(gè)問(wèn)題目前同樣沒(méi)有明確的答案。
以上研究工作都在不斷推進(jìn),zettascale和量子系統(tǒng)發(fā)展也在按自己的節(jié)奏同步進(jìn)行。Stevens預(yù)計(jì)這兩類(lèi)系統(tǒng)在未來(lái)15年到20年內(nèi)都沒(méi)有廣泛落地的可能性。Zettascale恐怕要到這個(gè)十年末才能實(shí)現(xiàn)低精度部署,而64位精度的系統(tǒng)也許要到2035年才能出現(xiàn)。(英特爾則認(rèn)為這個(gè)時(shí)間節(jié)點(diǎn)可能是2027年。)
在量子計(jì)算方面,成本的重要性與技術(shù)本身同樣重要。在exascale百億億次設(shè)備上運(yùn)行應(yīng)用程序兩周,大概要燒掉約700萬(wàn)美元。而在擁有1000萬(wàn)量子比特(目前尚不存在)的大規(guī)模量子設(shè)備上運(yùn)行相同的作業(yè),可能要花掉50億至2000億美元(參見(jiàn)下圖)。因此,這個(gè)成本必須再降幾個(gè)數(shù)量級(jí),才能以物有所值的方式真正幫助人們解決大規(guī)模問(wèn)題。
“也就是說(shuō), 我們需要在發(fā)展量子計(jì)算的同時(shí),在經(jīng)典計(jì)算方面也取得持續(xù)進(jìn)展,利用經(jīng)典計(jì)算解決期間出現(xiàn)的現(xiàn)實(shí)問(wèn)題。雖然預(yù)計(jì)zettascale的開(kāi)發(fā)同樣需要15到20年的時(shí)間,但這是更可以把握的發(fā)展節(jié)奏,也是我們真正觸手可及的技術(shù)選項(xiàng)?!?
所有這一切都將回歸最初的主題:HPC創(chuàng)新需要大量時(shí)間,量子加經(jīng)典的混合系統(tǒng)可能才是最終解決之道。未來(lái)的計(jì)算基板可能會(huì)以分子、光子甚至是其他未知的形式,工程師和科學(xué)家們距離正確答案還非常非常遙遠(yuǎn)。
Stevens總結(jié)道,“目前對(duì)技術(shù)格局影響最大的仍然是AI,而且我們對(duì)于AI技術(shù)如何重構(gòu)系統(tǒng)、真正為大規(guī)模AI計(jì)算打造理想平臺(tái)也只是略知皮毛。但游戲規(guī)則已經(jīng)有所改變,如果我們?cè)?0年后重新討論這個(gè)話題,可能思路都將完全不同。也許我們的猜測(cè)是對(duì)的,也許并不成立??傊@將是一場(chǎng)漫長(zhǎng)的競(jìng)賽,期間會(huì)有很多顛覆性因素,我們要做的就是駕馭這些顛覆因素、而不是強(qiáng)行與之對(duì)抗。事實(shí)上,顛覆是我們的朋友,它們能讓我們?cè)诩扔兴悸分猥@得新的啟發(fā)和能力,所以我們應(yīng)當(dāng)主動(dòng)尋求顛覆、擁抱顛覆?!?