鐵甲工程機(jī)械網(wǎng)> 工程機(jī)械資訊> 行業(yè) > 數(shù)字孿生黃河算力建設(shè)實(shí)踐與思考

數(shù)字孿生黃河算力建設(shè)實(shí)踐與思考

語音播報(bào)
點(diǎn)擊播放

數(shù)字孿生黃河算力建設(shè)實(shí)踐與思考

Practice and reflections on the construction of computing power for the digital twin Yellow River

李自尊,王益民,楚楠

(黃河水利委員會信息中心,450004,鄭州)

摘要:合理規(guī)劃水利部黃河水利委員會算力資源布局,優(yōu)化算力資源設(shè)計(jì),可為數(shù)字孿生黃河建設(shè)提供綠色、高效、安全、彈性的算力支撐?;仡櫫它S河水利委員會算力資源建設(shè)歷程,分析了算力資源、保障設(shè)施建設(shè)現(xiàn)狀,指出算力資源建設(shè)在多算力融合、算力資源服務(wù)能力、保障體系等方面存在的問題?;跀?shù)字孿生黃河建設(shè)對算力資源的需求,提出“整合已建、統(tǒng)籌在建、規(guī)范新建”的建設(shè)思路,整體設(shè)計(jì)采用中心算力“超集中”,邊緣算力“超分布”,算力內(nèi)核“多樣化”,多元算力、算力多主體融合供給的“兩超一多兩融合”的“云邊協(xié)同”布局思路,提出從基礎(chǔ)計(jì)算、高性能計(jì)算、人工智能計(jì)算等方面提升算力,基于算力資源管理平臺實(shí)現(xiàn)異構(gòu)資源統(tǒng)一納管、精細(xì)化權(quán)限管理等,從綠色機(jī)房環(huán)境、容災(zāi)備份、分區(qū)分域算力資源建設(shè)等方面加強(qiáng)保障體系建設(shè),以期為黃河及其他流域后續(xù)算力資源規(guī)劃建設(shè)提供參考。

關(guān)鍵詞:數(shù)字孿生黃河;算力;算力布局;多算力融合;保障體系

作者簡介:李自尊,高級工程師,主要研究方向?yàn)樗畔⒒?shù)據(jù)匯聚治理及云數(shù)據(jù)中心建設(shè)。

DOI:10.3969/j.issn.1000-1123.2025.03.003

隨著技術(shù)推陳出新及運(yùn)營模式發(fā)展變革,算力資源服務(wù)云化、配置標(biāo)準(zhǔn)化、管理自動化已成為新一代算力中心的顯著特點(diǎn)。水利部黃河水利委員會(以下簡稱黃委)算力基礎(chǔ)設(shè)施建設(shè)起步較早,2004年成立了全國水利系統(tǒng)的首家數(shù)據(jù)中心,并形成了以黃河數(shù)據(jù)中心為主,委屬單位山東黃河河務(wù)局、河南黃河河務(wù)局、黃河上中游管理局、水文局、黃河水利科學(xué)研究院等分散建設(shè)的算力基礎(chǔ)設(shè)施布局。近年,通過實(shí)施水利財(cái)務(wù)管理信息系統(tǒng)、黃委綜合管理信息資源整合與共享等重點(diǎn)項(xiàng)目,黃河數(shù)據(jù)中心引入云計(jì)算、虛擬化等先進(jìn)技術(shù)理念,以構(gòu)建面向服務(wù)的云服務(wù)中心體系為目標(biāo),初步實(shí)現(xiàn)了物理資源的整合共享、靈活管理,提升了應(yīng)用系統(tǒng)的部署效率,一定程度提高了計(jì)算資源的復(fù)用率。隨著數(shù)字孿生黃河建設(shè)的深入,數(shù)據(jù)類型更加復(fù)雜多樣,數(shù)據(jù)來源更加豐富,計(jì)算模型更加復(fù)雜融合,計(jì)算方式更加多元,對算力資源的需求也更加復(fù)雜、多元、融合。當(dāng)前,委屬各單位算力資源分散部署,整體算力指標(biāo)強(qiáng)但資源服務(wù)能力弱,且傳統(tǒng)算力資源無法滿足人工智能、高性能計(jì)算等新技術(shù)應(yīng)用需求。

2020年國家發(fā)展改革委、中央網(wǎng)信辦、工業(yè)和信息化部、國家能源局聯(lián)合印發(fā)《關(guān)于加快構(gòu)建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》,明確指出“優(yōu)化數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)布局,加快實(shí)現(xiàn)數(shù)據(jù)中心集約化、規(guī)模化、綠色化發(fā)展”;2021年工業(yè)和信息化部出臺《新型數(shù)據(jù)中心發(fā)展三年行動計(jì)劃(2021—2023年)》,引導(dǎo)傳統(tǒng)數(shù)據(jù)中心向具有高技術(shù)、高算力、高能效、高安全特征的新型數(shù)據(jù)中心演進(jìn),推動CPU、GPU等異構(gòu)算力提升,支撐各類智能應(yīng)用;2022年水利部印發(fā)《數(shù)字孿生流域建設(shè)技術(shù)大綱(試行)》,提出建成省級及以上水行政主管部門水利云,實(shí)現(xiàn)計(jì)算存儲資源按需分配、彈性伸縮,為數(shù)字孿生流域提供安全可靠“算力”保障。

為適應(yīng)智慧水利建設(shè)要求和黃河流域高質(zhì)量發(fā)展客觀需要,亟待推進(jìn)黃委算力布局統(tǒng)籌共享,優(yōu)化資源配置,提升資源服務(wù)能力,支撐新時期數(shù)字孿生黃河建設(shè)。

黃委算力資源建設(shè)歷程

黃委算力資源建設(shè)主要經(jīng)歷“數(shù)字黃河”“數(shù)字孿生黃河”兩個階段。2001年7月25日,黃委黨組正式提出建設(shè)“數(shù)字黃河”工程。2003年“數(shù)字黃河”工程規(guī)劃正式發(fā)布,明確要求建設(shè)黃河數(shù)據(jù)中心,黃委算力資源采取“1+7”建設(shè)模式,即1個數(shù)據(jù)中心,委屬單位水文局、山東黃河河務(wù)局、河南黃河河務(wù)局、黃河流域水資源保護(hù)局、黃河勘測規(guī)劃設(shè)計(jì)研究院有限公司、黃河水利科學(xué)研究院、黃河上中游管理局7個分中心,并將分中心數(shù)據(jù)在中心備份。2004年,黃河數(shù)據(jù)中心一期工程建設(shè)完成,成為全國水利系統(tǒng)首家投入應(yīng)用的數(shù)據(jù)中心,并在后續(xù)建設(shè)中逐步形成了“黃河數(shù)據(jù)中心+數(shù)據(jù)分中心”的運(yùn)行模式。然而,隨著設(shè)備老化、技術(shù)迭代和管理模式變化,中心與分中心之間的數(shù)據(jù)交換已經(jīng)停止,分中心的數(shù)據(jù)也不再向數(shù)據(jù)中心備份。

“數(shù)字黃河”階段數(shù)據(jù)存儲能力達(dá)到了10TB級規(guī)模,重點(diǎn)存放基礎(chǔ)數(shù)據(jù)和監(jiān)測站點(diǎn)采集的結(jié)構(gòu)化數(shù)據(jù),采用FC-SAN存儲技術(shù)滿足數(shù)據(jù)高速IOPS訪問需求。基礎(chǔ)計(jì)算以物理機(jī)部署模式為主,并逐步開始向虛擬化方式部署轉(zhuǎn)變;高性能計(jì)算平臺浮點(diǎn)運(yùn)算速度為每秒3840億次,主要為黃委氣象水文預(yù)報(bào)、下游水沙過程演進(jìn)模擬運(yùn)算提供計(jì)算支撐;基于機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)的人工智能計(jì)算尚未得到應(yīng)用。

按照水利部統(tǒng)一部署,黃委2022年開展數(shù)字孿生先行先試,國產(chǎn)化算力進(jìn)一步提升。衛(wèi)星、無人機(jī)、視頻、無人船、工情險(xiǎn)情監(jiān)測感知設(shè)備等新型監(jiān)測感知技術(shù)的普遍應(yīng)用,使覆蓋水利對象全要素和水利治理管理全過程的數(shù)據(jù)類型日益繁雜,數(shù)據(jù)量遠(yuǎn)超PB級,以云計(jì)算方式部署的基礎(chǔ)計(jì)算已成為主流,高性能并行計(jì)算集群及人工智能計(jì)算作為通用計(jì)算的補(bǔ)充,應(yīng)用需求旺盛。

數(shù)字孿生黃河算力建設(shè)實(shí)踐

1.算力資源建設(shè)

在國家新型基礎(chǔ)設(shè)施建設(shè)、信創(chuàng)要求及水利部數(shù)字孿生流域建設(shè)相關(guān)政策文件的指導(dǎo)下,按照“集約高效、共享開放、安全可靠、按需服務(wù)”的原則,在黃河云平臺基礎(chǔ)上,對云資源進(jìn)行補(bǔ)充、提升和完善,形成融合了X86、ARM等不同架構(gòu)類型,涵蓋CPU、GPU等不同芯片的多元異構(gòu)黃河云,有效支撐了智能遙感解譯、無人機(jī)智能識別等智能并行運(yùn)算,以及黃河水旱災(zāi)害防御、水資源管理與調(diào)配等“2+N”智能應(yīng)用系統(tǒng)的高效穩(wěn)定運(yùn)行,滿足了業(yè)務(wù)多樣化的計(jì)算需求。計(jì)算資源分為基礎(chǔ)計(jì)算、高性能計(jì)算和人工智能計(jì)算三類,包括國產(chǎn)化和非國產(chǎn)化兩套體系。

基礎(chǔ)計(jì)算通常指日常業(yè)務(wù)處理和信息服務(wù)計(jì)算,包括數(shù)據(jù)中心的服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備等基礎(chǔ)設(shè)施,主要用于業(yè)務(wù)邏輯流程處理。黃委基礎(chǔ)計(jì)算資源主要集中部署在黃河數(shù)據(jù)中心,并分布在山東黃河河務(wù)局、河南黃河河務(wù)局、水文局、黃河上中游管理局等委屬單位。黃河數(shù)據(jù)中心于2015年開始引入云計(jì)算技術(shù),開展了X86云平臺建設(shè),共有88個物理CPU,13TB內(nèi)存,投入生產(chǎn)運(yùn)行300余臺虛擬機(jī)。目前X86云平臺內(nèi)存使用率超70%,云計(jì)算平臺承載能力已經(jīng)超過理論建議閾值,不再計(jì)劃擴(kuò)充。隨著國產(chǎn)化的推進(jìn),2020年開始搭建國產(chǎn)云平臺,選用ARM架構(gòu)國產(chǎn)芯片搭建了計(jì)算資源池及存儲資源池,操作系統(tǒng)選用銀河麒麟V10,主要用于承載公文流轉(zhuǎn)、移動辦公等國產(chǎn)化改造后的電子政務(wù)系統(tǒng)。數(shù)據(jù)庫為集中方式部署,組建了2節(jié)點(diǎn)Oracle RAC集群,目前承載了幾十個業(yè)務(wù)系統(tǒng),已經(jīng)高負(fù)荷運(yùn)轉(zhuǎn)。考慮到系統(tǒng)性能,近兩年購置的國產(chǎn)數(shù)據(jù)庫,均為每套部署一個或幾個業(yè)務(wù)應(yīng)用。

高性能計(jì)算是能夠?qū)Υ罅咳蝿?wù)進(jìn)行高效快速運(yùn)算的技術(shù),為科學(xué)研究提供大規(guī)模高性能科學(xué)計(jì)算和仿真計(jì)算服務(wù)。2006年,黃河水利科學(xué)研究院建成了流域機(jī)構(gòu)第一家高性能計(jì)算平臺——黃河超級計(jì)算中心。隨著數(shù)字孿生黃河對“四預(yù)”(預(yù)報(bào)、預(yù)警、預(yù)演、預(yù)案)精度和時效性要求不斷提高,黃委高性能計(jì)算集群能力近年得到一定提升,主要集中部署在委屬單位黃河水利科學(xué)研究院和水文局,用于二三維水動力學(xué)模型、黃河流域堤壩潰決及洪水演進(jìn)模型、黃河主要來水區(qū)間中長期徑流預(yù)報(bào)模型等專業(yè)模型的高效計(jì)算。

人工智能計(jì)算是指用于執(zhí)行人工智能算法和模型的計(jì)算過程,包括機(jī)器學(xué)習(xí)、自然語言處理、深度學(xué)習(xí)和計(jì)算機(jī)視覺等領(lǐng)域的計(jì)算?;谌斯ぶ悄芩惴ǖ倪b感智能提取與分析、視頻智能識別等技術(shù)在黃委河湖庫“清四亂”(清理亂占、亂采、亂堆、亂建)、冰川融雪徑流中長期預(yù)報(bào)等領(lǐng)域逐步開展應(yīng)用,主要采用以英偉達(dá)GPU為主的人工智能計(jì)算芯片。

2.保障設(shè)施建設(shè)

黃河數(shù)據(jù)中心機(jī)房樓為單獨(dú)樓體,為水旱災(zāi)害防御、水資源管理與調(diào)配、“黃河一張圖”等幾十個治黃業(yè)務(wù)系統(tǒng)的生產(chǎn)運(yùn)行提供支撐。同時根據(jù)黃委算力資源分布,委屬單位分散建設(shè)機(jī)房環(huán)境。由于建設(shè)年代較早,黃河數(shù)據(jù)中心機(jī)房基于傳統(tǒng)機(jī)房模式建設(shè),制冷效率低、機(jī)房能耗大,且涉及裝修、制冷、供配電、消防等多專業(yè)分散集成,運(yùn)維管理要求高。

為應(yīng)對黃河云運(yùn)行中資源監(jiān)控分散、缺乏業(yè)務(wù)視角全局監(jiān)控、輔助決策能力不足以及國產(chǎn)化資源監(jiān)控手段缺失等問題,構(gòu)建了基于國產(chǎn)化技術(shù)的黃委信息系統(tǒng)智能運(yùn)維監(jiān)控平臺。該平臺整合了信息系統(tǒng)資源,實(shí)現(xiàn)了資源監(jiān)控、運(yùn)維流程、資產(chǎn)管理和綜合展示分析等功能的閉環(huán)管理,精細(xì)化云資源管理,一定程度提高了故障響應(yīng)效率和云資源服務(wù)質(zhì)量,確保了上層業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行。

容災(zāi)備份方面黃河數(shù)據(jù)中心基于備份一體機(jī)及虛擬化平臺自帶的備份功能,實(shí)現(xiàn)核心數(shù)據(jù)及重要業(yè)務(wù)系統(tǒng)的本地備份。部分委屬單位建有本地備份系統(tǒng)。

3.差距與問題

①多算力融合實(shí)踐成果不佳。一是委屬各單位算力底層架構(gòu)采用的技術(shù)路線、芯片型號各異,未進(jìn)行有效整合,算力資源無法有效兼容和調(diào)度,影響了整體效益的發(fā)揮;二是委屬各單位應(yīng)用系統(tǒng)分散建設(shè),數(shù)據(jù)格式、編譯環(huán)境、接口標(biāo)準(zhǔn)等不一致,導(dǎo)致系統(tǒng)間融合使用困難,可操作性差,影響系統(tǒng)整體效能;三是國產(chǎn)化算力占比不高,部分重要業(yè)務(wù)系統(tǒng)需要進(jìn)一步開展國產(chǎn)化適配;四是算力基礎(chǔ)制度體系不健全,算力整合共享管理等制度辦法落實(shí)缺乏強(qiáng)有力的抓手。

②算力資源服務(wù)能力有待提升一是算力資源總量不足,現(xiàn)有算力資源多隨系統(tǒng)或特定項(xiàng)目建設(shè),沒有過多冗余資源,存儲資源總量已使用近80%,計(jì)算資源已近超分1:2閾值;二是尚未建立大規(guī)模面向業(yè)務(wù)生產(chǎn)運(yùn)行的高性能計(jì)算和人工智能計(jì)算平臺。

③保障體系存在薄弱環(huán)節(jié)。一是機(jī)房整體能耗高,目前黃河數(shù)據(jù)中心采用傳統(tǒng)機(jī)房模式,非IT設(shè)備用電量占數(shù)據(jù)中心總能耗60%~70%,PUE(Power Usage Effectiveness,電源使用效率)值約為3.7,能耗大,運(yùn)行成本高,不符合國家機(jī)房能效標(biāo)準(zhǔn);二是根據(jù)《信息安全技術(shù) 網(wǎng)絡(luò)安全等級保護(hù)基本要求》(GB/T 22239—2019),第三級安全要求“應(yīng)提供異地實(shí)時備份功能,利用通信網(wǎng)絡(luò)將重要數(shù)據(jù)實(shí)時備份至備份場地”,黃河數(shù)據(jù)中心需要建立數(shù)據(jù)異地災(zāi)備系統(tǒng);三是政務(wù)外網(wǎng)區(qū)和互聯(lián)網(wǎng)區(qū)未嚴(yán)格按照網(wǎng)絡(luò)分區(qū)分域管理,存在混淆使用算力資源情況,具有較大網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。

數(shù)字孿生黃河算力建設(shè)思考

1.建設(shè)思路

按照“整合已建、統(tǒng)籌在建、規(guī)范新建”的建設(shè)思路,遵循國家、水利部關(guān)于算力資源集約化、規(guī)?;⒕G色化部署要求及國產(chǎn)化戰(zhàn)略要求,進(jìn)一步挖掘算力資源潛能,統(tǒng)籌國產(chǎn)算力布局,擴(kuò)充算力資源,構(gòu)建數(shù)字孿生多元算力融合的黃河云。通過黃河云以虛擬數(shù)據(jù)中心(VDC)或多租戶的方式共享算力,支撐流域“2+N”應(yīng)用,建成數(shù)字孿生水利的黃河流域節(jié)點(diǎn)和數(shù)據(jù)災(zāi)備中心。

數(shù)字孿生黃河算力布局統(tǒng)籌共享總體思路

①整合已建委屬各單位現(xiàn)有算力資源物理位置保持不變,采用虛擬化或云化技術(shù)的國產(chǎn)化算力資源邏輯納入多元算力融合黃河云,不具備或無法整合的算力資源維持現(xiàn)狀使用,并逐步過渡到統(tǒng)一管理、按需共享。

②統(tǒng)籌在建。在建算力資源按照統(tǒng)一的技術(shù)標(biāo)準(zhǔn)納入黃河云統(tǒng)一算力資源管理體系,形成算力合力。

③規(guī)范新建。服務(wù)于委級業(yè)務(wù)的應(yīng)用,采用國產(chǎn)化技術(shù)統(tǒng)一部署在黃河數(shù)據(jù)中心,通過集約建設(shè)、集中部署、統(tǒng)籌管理,將有限資源優(yōu)先滿足數(shù)字孿生關(guān)鍵領(lǐng)域、核心業(yè)務(wù)的發(fā)展需要,既合理利用資源,又減少機(jī)房環(huán)境、網(wǎng)絡(luò)安全等重復(fù)建設(shè)導(dǎo)致的資源浪費(fèi)、安全風(fēng)險(xiǎn)點(diǎn)增加等不合理現(xiàn)象。其他應(yīng)用原則上采用國產(chǎn)化技術(shù)云化部署,將新增算力資源與黃河云算力資源管理平臺對接,實(shí)時歸集云資源使用數(shù)據(jù)、云平臺運(yùn)行數(shù)據(jù)等,實(shí)現(xiàn)全委算力資源的統(tǒng)一管理及調(diào)度。

2.算力布局

黃河全長5464km,流域面積79.5萬km2,范圍大,距離長,環(huán)境復(fù)雜,全流域數(shù)據(jù)獲取困難??紤]到系統(tǒng)響應(yīng)時效及通信帶寬等因素,根據(jù)數(shù)字孿生黃河建設(shè)數(shù)據(jù)采集、處理、分析需求,設(shè)計(jì)整體采用“兩超一多兩融合”的“云邊協(xié)同”布局思路,即中心算力“超集中”,邊緣算力“超分布”,算力內(nèi)核“多樣化”,多元算力、算力多主體融合供給。

(1)中心算力“超集中”

①集約化建設(shè)。將分散的算力資源整合至黃河數(shù)據(jù)中心,形成規(guī)模化、集約化的算力中心,降低建設(shè)成本,減少安全風(fēng)險(xiǎn)點(diǎn),提高運(yùn)維效率,更好地滿足數(shù)字孿生黃河對大規(guī)模計(jì)算資源的需求。集中建設(shè)和分散建設(shè)兩種模式對比見下表。

集中建設(shè)和分散建設(shè)模式對比

②綠色節(jié)能。集約化建設(shè)可減少單體小規(guī)模機(jī)房數(shù)量,采用模塊化機(jī)房技術(shù),對現(xiàn)有機(jī)房進(jìn)行節(jié)能改造,降低能耗,響應(yīng)國家綠色發(fā)展戰(zhàn)略。

(2)邊緣算力“超分布”

①邊緣節(jié)點(diǎn)建設(shè)。在黃河流域的關(guān)鍵區(qū)域部署邊緣云計(jì)算節(jié)點(diǎn),靠近數(shù)據(jù)源進(jìn)行數(shù)據(jù)采集、處理和分析,降低延遲,提高響應(yīng)速度,減輕中心算力的負(fù)擔(dān)。

②云邊協(xié)同。通過云邊協(xié)同技術(shù),實(shí)現(xiàn)中心算力與邊緣算力的協(xié)同工作,合理分配計(jì)算任務(wù),優(yōu)化資源利用,提升系統(tǒng)整體性能和可靠性。相比傳統(tǒng)的云端數(shù)據(jù)處理,云邊協(xié)同模式下,云端計(jì)算集群、邊緣網(wǎng)絡(luò)節(jié)點(diǎn)、物聯(lián)網(wǎng)智能終端都可參與到感知、學(xué)習(xí)和決策的過程中。例如,在智能視頻監(jiān)控系統(tǒng)中,端設(shè)備(如智能攝像頭)實(shí)時檢測和識別水位線變化、非法捕撈行為等,邊緣設(shè)備進(jìn)行圖像增強(qiáng)、目標(biāo)跟蹤、預(yù)警處置;而云計(jì)算中心則用于更復(fù)雜的數(shù)據(jù)分析和長期決策支持,如預(yù)測水位變化趨勢,接收邊緣設(shè)備上傳的預(yù)警信息,進(jìn)一步支持決策和資源調(diào)度。

“云邊協(xié)同”模式

(3)算力內(nèi)核“多樣化”

①異構(gòu)融合。采用多種芯片架構(gòu)(如CPU、GPU、TPU等)和計(jì)算平臺架構(gòu)(如虛擬化、高性能計(jì)算、人工智能計(jì)算等),構(gòu)建多元異構(gòu)融合的算力資源池,滿足不同業(yè)務(wù)場景下的多樣化計(jì)算需求。

②彈性擴(kuò)展。基于云計(jì)算技術(shù),實(shí)現(xiàn)算力資源的彈性擴(kuò)展,根據(jù)業(yè)務(wù)需求動態(tài)調(diào)整資源分配,提高資源利用率。

(4)多元算力、算力多主體融合供給

①資源共享。建立黃河數(shù)據(jù)中心與邊緣節(jié)點(diǎn)的統(tǒng)一管理機(jī)制,通過資源虛擬化、異構(gòu)計(jì)算框架構(gòu)建、智能資源調(diào)度、負(fù)載均衡、存儲分層、網(wǎng)絡(luò)通信優(yōu)化等技術(shù)有效整合與協(xié)同多元異構(gòu)算力資源,實(shí)現(xiàn)算力資源的共享和調(diào)度,避免資源閑置和浪費(fèi)。

②多方協(xié)同。積極探索與國家超級計(jì)算中心、省級數(shù)據(jù)中心等算力資源合作,實(shí)現(xiàn)多方協(xié)同供給,滿足黃委對算力的多樣化需求。

3.技術(shù)架構(gòu)

數(shù)字孿生黃河算力總體框架設(shè)計(jì)包括物理資源層、云資源層、資源服務(wù)及管理層、資源使用層、資源應(yīng)用層。

數(shù)字孿生黃河算力總體框架

物理資源層包含機(jī)房環(huán)境,CPU、GPU等異構(gòu)計(jì)算資源,以及塊、對象、文件等多種類型的存儲資源,通過網(wǎng)絡(luò)互聯(lián)設(shè)備及必要的安全設(shè)備,將黃河數(shù)據(jù)中心、邊緣云計(jì)算節(jié)點(diǎn)、災(zāi)備中心互聯(lián)互通,從而形成統(tǒng)一算力基礎(chǔ)設(shè)施。

云資源層通過虛擬化、多云管理、高性能計(jì)算集群管理等多種技術(shù)手段,將物理資源整合為計(jì)算存儲等資源池,對上提供統(tǒng)一資源服務(wù),主要包括虛擬化資源池、數(shù)據(jù)庫資源池、人工智能計(jì)算資源池、大數(shù)據(jù)資源池、容器資源池、高性能計(jì)算資源池。

資源服務(wù)及管理層包括自助服務(wù)門戶及統(tǒng)一管理門戶,將底層算力資源統(tǒng)一以資源服務(wù)目錄形式提供給上層應(yīng)用,并實(shí)現(xiàn)對資源的統(tǒng)一監(jiān)控、統(tǒng)一管理、統(tǒng)一調(diào)度。

資源使用層用戶通過虛擬數(shù)據(jù)中心或租戶形式以虛擬機(jī)、容器等多種方式使用算力資源,部署生產(chǎn)業(yè)務(wù)應(yīng)用、模型計(jì)算或開發(fā)測試。

4.算力設(shè)計(jì)

(1)算力能力提升

以云計(jì)算、高性能計(jì)算、人工智能等新技術(shù)為基礎(chǔ),構(gòu)建數(shù)字孿生黃河算力中心節(jié)點(diǎn),為數(shù)字孿生黃河建設(shè)水利專業(yè)模型、智能模型、可視化模型等算法的并行計(jì)算、分布計(jì)算、模擬仿真需求及“2+N”智能業(yè)務(wù)運(yùn)行提供高性能、高可靠、高安全的算力支撐,實(shí)現(xiàn)建設(shè)集約化、資源共享化、服務(wù)標(biāo)準(zhǔn)化、效益最大化。

按照功能分區(qū),將算力資源整體分為基礎(chǔ)計(jì)算資源區(qū)、人工智能區(qū)、高性能計(jì)算區(qū)及存儲備份資源區(qū)。整體平臺架構(gòu)邏輯如下圖所示。

數(shù)字孿生黃河算力部署架構(gòu)

①基礎(chǔ)計(jì)算業(yè)務(wù)區(qū)。基礎(chǔ)計(jì)算業(yè)務(wù)區(qū)采用云計(jì)算平臺架構(gòu)建設(shè),由基礎(chǔ)計(jì)算服務(wù)器、數(shù)據(jù)庫服務(wù)器、存儲設(shè)備、云平臺管理軟件、數(shù)據(jù)庫管理軟件等組成,其中基礎(chǔ)計(jì)算服務(wù)器基于虛擬化與容器等技術(shù)提供云化計(jì)算、存儲資源,數(shù)據(jù)庫服務(wù)器采用裸金屬部署方式?;A(chǔ)計(jì)算業(yè)務(wù)區(qū)分為計(jì)算、管理和存儲組網(wǎng),其中存儲在數(shù)據(jù)中心內(nèi)部單獨(dú)組網(wǎng),計(jì)算和管理分別組網(wǎng)再匯聚上聯(lián)。

②高性能計(jì)算區(qū)。高性能計(jì)算為并行計(jì)算架構(gòu),采用獨(dú)立的并行計(jì)算框架底層架構(gòu)邏輯,通過并行環(huán)境與并行調(diào)度軟件搭建一套為科學(xué)計(jì)算、模型運(yùn)算提供應(yīng)用服務(wù)的高性能平臺。前端業(yè)務(wù)設(shè)計(jì)采用10GE網(wǎng)絡(luò)互聯(lián),后端存儲及計(jì)算節(jié)點(diǎn)互聯(lián)設(shè)計(jì)采用100GE網(wǎng)絡(luò)互聯(lián)組網(wǎng),提供高速穩(wěn)定的網(wǎng)絡(luò)環(huán)境,保障高性能計(jì)算服務(wù)器之間的無縫協(xié)同工作,確保計(jì)算節(jié)點(diǎn)之間的通信暢通。

③人工智能區(qū)。人工智能計(jì)算與基礎(chǔ)計(jì)算平臺或高性能計(jì)算納入統(tǒng)一管理,通過GPU直通、容器等方式為上層業(yè)務(wù)提供AI計(jì)算能力。前端業(yè)務(wù)設(shè)計(jì)采用10GE網(wǎng)絡(luò)互聯(lián),后端存儲互聯(lián)與基礎(chǔ)計(jì)算業(yè)務(wù)區(qū)或高性能計(jì)算區(qū)共用存儲網(wǎng)絡(luò)。

④存儲備份資源。主要包括塊存儲、文件存儲、對象存儲及備份存儲資源。塊存儲與上層計(jì)算資源采用FC-SAN組網(wǎng),由光纖交換機(jī)連接計(jì)算及存儲資源;文件存儲及對象存儲采用分布式存儲架構(gòu),存儲系統(tǒng)內(nèi)部互聯(lián)、存儲節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)互聯(lián)均采用25GE以上網(wǎng)絡(luò)。

(2)算力資源管理平臺建設(shè)

按照集約共享的方式,集約化建設(shè)算力資源,通過采取異構(gòu)資源統(tǒng)一納管、多級組織及精細(xì)化權(quán)限管理、自助化統(tǒng)一服務(wù)門戶、算力資源運(yùn)營閉環(huán)管理、云服務(wù)質(zhì)量監(jiān)管等多種技術(shù)手段,按需為上層應(yīng)用提供高效彈性的算力資源服務(wù)。

①異構(gòu)資源統(tǒng)一納管。基于統(tǒng)一技術(shù)標(biāo)準(zhǔn),將不同類型(如CPU、GPU)及不同芯片架構(gòu)(如ARM架構(gòu)、X86架構(gòu))的計(jì)算資源納入統(tǒng)一資源管理體系,優(yōu)化資源分配及調(diào)度,實(shí)現(xiàn)對各種資源的最大化利用及高效管理,為上層應(yīng)用提供靈活的計(jì)算能力,提升算力整體運(yùn)行效率及服務(wù)質(zhì)量。

②多級組織與精細(xì)化權(quán)限管理。面向機(jī)關(guān)部門、委屬單位設(shè)置算力資源多級組織管理,對于山東黃河河務(wù)局、河南黃河河務(wù)局、水文局、黃河水利科學(xué)研究院等算力資源需求較旺盛且具有一定技術(shù)管理能力的委屬單位,通過云計(jì)算技術(shù)建立虛擬數(shù)據(jù)中心,劃分一定算力資源由上述單位進(jìn)行日常管理及自主分配,黃河數(shù)據(jù)中心對分配資源進(jìn)行統(tǒng)一監(jiān)控及運(yùn)維分析;對于機(jī)關(guān)部門,以及陜西黃河河務(wù)局、山西黃河河務(wù)局、機(jī)關(guān)服務(wù)局等委屬單位,直接申請使用算力資源,黃河數(shù)據(jù)中心按照租戶模式為其劃分計(jì)算存儲資源并統(tǒng)一運(yùn)行維護(hù)。

③自助化統(tǒng)一服務(wù)門戶。基于統(tǒng)一的服務(wù)門戶發(fā)布算力資源服務(wù)目錄,用戶可以快速通過服務(wù)目錄選擇計(jì)算、存儲資源,提升算力自服務(wù)能力。

④算力資源運(yùn)營閉環(huán)管理。提供算力資源治理、計(jì)量計(jì)費(fèi)、服務(wù)運(yùn)營等自動化支撐工具,融合資源編排、資產(chǎn)配置可視化等多種技術(shù)手段,靈活組合各類算力資源,降低分散算力資源的運(yùn)維成本,提供可持續(xù)的算力服務(wù)。

⑤云服務(wù)質(zhì)量監(jiān)管。基于統(tǒng)一資源監(jiān)控,在性能、可靠性、資源使用率、運(yùn)行成本等多個方面出具專業(yè)的系統(tǒng)評估報(bào)告及資源升配、降配、閑置停用等優(yōu)化建議,提升云服務(wù)質(zhì)量,合力分配算力資源。

(3)保障體系建設(shè)

①基礎(chǔ)環(huán)境。貫徹新發(fā)展理念,助力實(shí)現(xiàn)碳達(dá)峰、碳中和,進(jìn)一步契合云計(jì)算、虛擬化、集中化、高密化等服務(wù)器發(fā)展趨勢,在黃河數(shù)據(jù)中心統(tǒng)一機(jī)房建設(shè)基礎(chǔ)環(huán)境。采用模塊化機(jī)房技術(shù),實(shí)現(xiàn)對黃河數(shù)據(jù)中心機(jī)房的模塊化節(jié)能改造,擴(kuò)展機(jī)房可用空間,力爭達(dá)到國家A級機(jī)房標(biāo)準(zhǔn),最大程度降低數(shù)據(jù)中心整體能耗,節(jié)約電能消耗40%以上,PUE值達(dá)到1.3~1.5。

②災(zāi)備體系。以黃河數(shù)據(jù)中心為主體,采用“兩地三中心”技術(shù)架構(gòu)建立流域容災(zāi)備份體系。同城災(zāi)備中心實(shí)現(xiàn)重要業(yè)務(wù)數(shù)據(jù)容災(zāi)及核心業(yè)務(wù)應(yīng)用容災(zāi),在保障核心業(yè)務(wù)連續(xù)性的同時,為智能算法、數(shù)字孿生、科學(xué)研究、系統(tǒng)研發(fā)等提供場景支撐和開發(fā)平臺,避免災(zāi)備中心日常資源閑置;建設(shè)委級數(shù)據(jù)災(zāi)備系統(tǒng),實(shí)現(xiàn)委屬單位重要業(yè)務(wù)數(shù)據(jù)在黃河數(shù)據(jù)中心的集中統(tǒng)一災(zāi)備,并將黃河數(shù)據(jù)中心本地重要數(shù)據(jù)異地災(zāi)備至異地災(zāi)備中心,實(shí)現(xiàn)核心業(yè)務(wù)數(shù)據(jù)容災(zāi)和關(guān)鍵業(yè)務(wù)應(yīng)用容災(zāi)。

③算力資源分區(qū)分域建設(shè)。按照網(wǎng)絡(luò)安全要求規(guī)范分區(qū)建設(shè),滿足互聯(lián)網(wǎng)業(yè)務(wù)應(yīng)用及數(shù)據(jù)采集需求,采用超融合技術(shù),在互聯(lián)網(wǎng)隔離區(qū)(DMZ區(qū))建設(shè)虛擬化平臺,為上層業(yè)務(wù)提供統(tǒng)一的計(jì)算存儲服務(wù),實(shí)現(xiàn)政務(wù)外網(wǎng)區(qū)和互聯(lián)網(wǎng)區(qū)的邏輯隔離,通過網(wǎng)絡(luò)安全設(shè)備實(shí)現(xiàn)二者的數(shù)據(jù)交換。

結(jié)語

在國家新型數(shù)據(jù)中心建設(shè)和數(shù)字孿生黃河建設(shè)整體框架體系下,通過合理規(guī)劃、建設(shè)、管理黃委算力提升資源服務(wù)能力,是本研究的出發(fā)點(diǎn)?;仡櫫它S委算力資源發(fā)展歷程,分析了黃委算力資源建設(shè)的現(xiàn)狀及問題,提出了“整合已建、統(tǒng)籌在建、規(guī)范新建”的建設(shè)思路,以及“兩超一多兩融合”的“云邊協(xié)同”算力布局方案。通過構(gòu)建多元異構(gòu)融合的黃河云,加強(qiáng)算力資源平臺及保障體系建設(shè),將有效提升黃委算力資源服務(wù)能力,為數(shù)字孿生黃河建設(shè)提供有力支撐。未來,超集中的中心算力、超分布的邊緣算力、云邊算力間的協(xié)同保障體系的建設(shè)和落地執(zhí)行,有待進(jìn)一步深入研究。

Abstract: Rational planning of the Yellow River Conservancy Commission’s computing power resource layout and optimization of computing power resource design can provide green, efficient, secure, and flexible computing support for the construction of the digital twin Yellow River. This paper reviews the construction history of the Commission’s computing power resources, analyzes the current status of computing resources and supporting facilities, and identifies issues in areas such as multi-computing power integration, service capabilities of computing resources, and support systems. Based on the computing power requirements for the digital twin Yellow River, the paper proposes a construction approach of “integrating existing resources, coordinating ongoing projects, and standardizing new constructions”. The overall design adopts a “cloud-edge collaboration” layout strategy characterized by “super-centralized central computing power, super-distributed edge computing power, diversified computing cores, and integrated multi-source and multi-entity computing power supply”. It suggests enhancing computing capabilities in basic computing, high-performance computing, and artificial intelligence computing. The paper also recommends achieving unified management of heterogeneous resources and refined permission management through a computing power resource management platform, and strengthening the support system in areas such as green data center environments, disaster recovery backups, and regional computing resource construction. These insights aim to provide a reference for the planning and construction of computing power resources for the Yellow River and other river basins.

Keywords: digital twin Yellow River; computing power; computing power layout; multi-computing power integration; support system

本文引用格式:

李自尊,王益民,楚楠.數(shù)字孿生黃河算力建設(shè)實(shí)踐與思考[J].中國水利,2025(3):22-30

封面供圖水利部黃河水利委員會

責(zé)編王慧

校對董林玥

審核軒瑋

監(jiān)制趙洪濤



聲明:本文系轉(zhuǎn)載自互聯(lián)網(wǎng),請讀者僅作參考,并自行核實(shí)相關(guān)內(nèi)容。若對該稿件內(nèi)容有任何疑問或質(zhì)疑,請立即與鐵甲網(wǎng)聯(lián)系,本網(wǎng)將迅速給您回應(yīng)并做處理,再次感謝您的閱讀與關(guān)注。

相關(guān)文章
我要評論
表情
歡迎關(guān)注我們的公眾微信