『壹』 數據中心伺服器技術發展趨勢與應用
當前,為推進IT支撐系統集約化建設和運營,進一步發揮集中化能力優勢,IT雲成為運營商IT支撐系統建設的基礎架構。但在IT雲資源池部署過程中,伺服器技術面臨多個新挑戰,主要體現在以下3個方面。
在性能方面,人工智慧(AI)應用快速擴張,要求IT雲採用高性能GPU伺服器。AI已在電信業網路覆蓋優化、批量投訴定界、異常檢測/診斷、業務識別、用戶定位等場景規模化應用。AI應用需求的大量出現,要求數據中心部署的伺服器具有更好的計算效能、吞吐能力和延遲性能,以傳統通用x86伺服器為核心的計算平台顯得力不從心,GPU伺服器因此登上運營商IT建設的歷史舞台。
在效率成本方面,IT雲部署通用伺服器存在弊端,催生定製化整機櫃伺服器應用需求。在IT雲建設過程中,由於業務需求增長快速,IT雲資源池擴容壓力較大,雲資源池中的伺服器數量快速遞增,上線效率亟需提高。同時,傳統通用伺服器部署模式周期長、部署密度低的劣勢,給數據中心空間、電力、建設成本和高效維護管理都帶來了較大的挑戰。整機櫃伺服器成為IT雲建設的另一可選方案。
在節能方面,AI等高密度應用場景的快速發展,驅動液冷服扒哪務器成為熱點。隨著AI高密度業務應用的發展,未來數據中心伺服器功率將從3kW~5kW向20kW甚至100kW以上規模發展,傳統的風冷式伺服器製冷系統解決方案已經無法滿足製冷需求,液冷伺服器成為AI應用場景下的有效解決方案。
GPU伺服器技術發展態勢及在電信業的應用
GPU伺服器技術發展態勢
GPU伺服器是單指令、多數據處理架構,通過與CPU協同進行工作。從CPU和GPU之間的互聯架構進行劃分,GPU伺服器又可分為基於傳統PCIe架構的GPU伺服器和基於NVLink架構的GPU伺服器兩類。GPU伺服器具有通用性強、生態系統完善的顯著優勢,因此牢牢占據了AI基礎架構市場的主導地位,國內外主流廠商均推出不同規格的GPU伺服器。
GPU伺服器在運營商IT雲建設中的應用
當前,電信業開始推動GPU伺服器在IT雲資源池中的應用,省公司現網中已經部署了部分GPU伺服器。同時,考慮到GPU成本較高,集團公司層面通過建設統一AI平台,集中化部署一批GPU伺服器,形成AI資源優化配置。從技術選型來看,目前運營商IT雲資源池採用英偉達、英特爾等廠商相關產品居多。
GPU伺服器在IT雲應用中取得了良好的效果。在現網部署的GPU伺服器中,與訓練和推理相關的深度學習應用佔主要部分,佔比超過70%,支撐的業務包括網路覆蓋智能優化、用戶智能定位、智能營銷、智能稽核等,這些智能應用減少了人工投入成本,提升了工作效率。以智能稽核為例,以往無紙化業務單據的人工稽核平均耗時約48秒/單,而AI稽核平均耗時僅約5秒/單,稽核效率提升達 90%。同時,無紙化業務單據人工稽核成本約1.5元/單,採用GPU進行AI稽核成本約0.048元/單,稽核成本降低達96.8%。
整機櫃伺服器發展態勢及在電信業的應用
整機櫃伺服器技術發展態勢
整機櫃伺服器是按照模塊化設計思路打造的伺服器解決方案,系統架構由機櫃、網路、供電、伺服器節點、集中散熱、集中管理6個子系統組成,是對數據中心伺服器設計技術的一次根本性變革。整機櫃伺服器將供電單元、散熱單元池化,通過節約空間來提高部署密度,其部署密度通常可以翻倍。集中供電和散熱的設計,使整機櫃伺服器僅需配置傳統機櫃式伺服器10%的電源數量就可滿足供電需要,電源效率可以提升10%以上,且單台伺服器的能耗可降低5%。
整機櫃伺服器在運營商IT雲建設中的應用
國內運營商在IT雲建設中已經推進了整機櫃伺服器部署,經過實際應用檢驗,在如下方面優勢明顯。
一是工廠預制,交付工時大幅縮短。傳統伺服器春穗碼交付效率低,採用整機櫃伺服器將原來在數據中心現場進行的伺服器拆包、上架、布線等工作轉移到工廠完成,部族賀署的顆粒度從1台上升到幾十台,交付效率大大提升。以一次性交付1500台伺服器為例,交付工作量可減少170~210人天,按每天配10人計算,現場交付時間可節省約17~21天。
二是資源池化帶來部件數量降低,故障率大幅下降。整機櫃伺服器通過將供電、製冷等部件資源池化,大幅減少了部件數量,帶來故障率的大幅降低。圖1比較了32節點整機櫃伺服器與傳統1U、2U伺服器機型各自的電源部件數量及在一年內的月度故障率情況。由於32節點整機櫃伺服器含10個電源部件,而32台1U通用伺服器的電源部件為64個,相較而言,整機櫃電源部件數減少84.4%。由於電源部件數量的降低,32節點整機櫃伺服器相對於32台1U通用伺服器的月度故障率也大幅縮減。
三是運維效率提升60%以上。整機櫃伺服器在工廠預制機櫃布線,網路線纜在工廠經過預處理,線纜長度精確匹配,理線簡潔,接線方式統一規范,配合運維標簽,在運維中可以更方便簡潔地對節點實施維護操作,有效降低運維誤操作,提升運維效率60%以上,並大幅減少發生故障後的故障恢復時間。
液冷伺服器技術發展態勢及在電信業的應用
液冷伺服器技術發展態勢
液冷伺服器技術也稱為伺服器晶元液體冷卻技術,採用特種或經特殊處理的液體,直接或近距離間接換熱冷卻晶元或者IT整體設備,具體包括冷板式冷卻、浸沒式冷卻和噴淋式冷卻3種形態。液冷伺服器可以針對CPU熱島精確定點冷卻,精確控制製冷分配,能真正將高密度部署帶到前所未有的更高層級(例如20kW~100kW高密度數據中心),是數據中心節能技術的發展方向之一,3種液冷技術對比如表1所示。
液冷伺服器在運營商IT建設中的應用
液冷伺服器技術目前在我國仍處於應用初期,產業鏈尚不完備、設備采購成本偏高、采購渠道少、電子元器件的兼容性低、液冷伺服器專用冷卻液成本高等問題是液冷伺服器尚未大規模推廣的重要原因。從液冷伺服器在運營商數據中心領域的具體應用案例來看,運營商在IT雲資源池規劃和建設過程中,通常會對液冷伺服器的發展現狀、技術成熟度等進行分析論證。
考慮到目前液冷伺服器規模化應用尚處於起步階段,需要3~5年的引入期,因此暫時未在IT雲資源池建設中進行大規模落地部署,但在部分地區有小規模應用,如中國移動南方基地數據中心已經開展液冷伺服器試點應用,中國聯通研究院也在開展邊緣數據中心伺服器噴淋式液冷系統的開發。未來,隨著IT雲建設規模、建設密度的繼續攀升,以及液冷產業生態體系的逐步成熟,液冷伺服器在IT雲建設中將有更大的應用空間。
總體來看,運營商IT雲資源池建設對伺服器計算性能、延遲、吞吐、製冷、定製化、分布式部署等方面都提出了更高要求。未來,GPU伺服器、定製化整機櫃伺服器、液冷伺服器等新興伺服器技術將快速迭代,為運營商數據中心伺服器技術的發展和演進帶來新的思路和路徑。