AI服務(wù)器電源作為高性能計算和數(shù)據(jù)中心的基礎(chǔ)設(shè)備,擔(dān)負著為服務(wù)器集群提供穩(wěn)定、高效電能供應(yīng)的任務(wù)。
數(shù)據(jù)中心電源架構(gòu)
國際能源署(IEA)的數(shù)據(jù)指出,2023年NVIDIA芯片的電力消耗已達7.3TWh,預(yù)估至2026年,這一數(shù)字將飆升至2023年的十倍。相較于傳統(tǒng)服務(wù)器電源96%的轉(zhuǎn)換效率,AI服務(wù)器電源需達到97.5%-98%的高標(biāo)準,以降低能量損耗并支撐更高功率密度的GPU。
AI模型與GPU技術(shù)的迭代促使AI服務(wù)器電源的功率密度不斷提升。以H100服務(wù)器機架為例,10.2kW的功率需要配備19.8kW的電源。NVL72機架的120kW功率則要求198kW的電源模塊。AI服務(wù)器電源的功率密度可達100W/in3,遠超普通服務(wù)器電源的50W/in3。
GB200 NVL72AI服務(wù)器機架
圖源:Nvidia
隨著AI服務(wù)器功耗的快速提升,在OCP ORV3標(biāo)準限制下服務(wù)器電源必須在保持效率不變的情況下通過提 升功率密度以滿足服務(wù)器的電源需求。在這個前提下,使用更好的材料、優(yōu)化電源拓撲結(jié)構(gòu)、提升功率器件的集成密度是主要優(yōu)化途徑。
AI服務(wù)器電源電源架構(gòu)分為UPS、AC/DC、DC/DC三層。高壓電從電網(wǎng)進入數(shù)據(jù)中心后,服務(wù)器電源供應(yīng)器會先將交流電轉(zhuǎn)為直流電,并降壓到48V;接著主板上的DC/DC轉(zhuǎn)換器,再將電壓轉(zhuǎn)換成12V、5V、3V3和0.8V等。
數(shù)據(jù)中心三級電源轉(zhuǎn)換
圖源:MPEL
UPS
即不間斷電源(Uninterruptible Power Supply)是一種含有儲能裝置的不間斷電源。當(dāng)市電輸入正常時,UPS將市電穩(wěn)壓后供應(yīng)給負載使用,此時的UPS就是一臺電穩(wěn)壓器,同時它還向機內(nèi)電池充電。當(dāng)市電意外中斷時,UPS立即將電池的直流電能,通過逆變器切換轉(zhuǎn)換的方法向負載繼續(xù)供應(yīng)電能,使負載維持正常工作并保護負載軟、硬件不受電網(wǎng)波動而造成損壞。
AC/DC(powershelf)轉(zhuǎn)換器
將電網(wǎng)的交流電轉(zhuǎn)換為適合服務(wù)器使用的50V直流電。AC/DC電源模塊包含電源模塊(PSU)和電源管理控制器(PMC)。
PSU(電源供應(yīng)單元):PSU負責(zé)將來自電網(wǎng)的交流電(AC)轉(zhuǎn)換為伺服器電子組件所需的直流電(DC)。PSU的效率很關(guān)鍵,它會直接影響整體的能源消耗和散熱需求,高效的PSU可以延長DC電源的壽命,并降低因為電源問題導(dǎo)致的服務(wù)器停機時間。
PMC(電源管理控制器):用于管理和優(yōu)化服務(wù)器電源的控制器。PMC通過監(jiān)控和調(diào)整服務(wù)器電源的供應(yīng)和消耗來實現(xiàn)最佳的電源管理,以提高服務(wù)器的能效和性能。
DC/DC轉(zhuǎn)換器
進一步將50V直流電降至芯片可接受的12V、5V、3V3和0.8V等,DC/DC電源的難點在于如何盡可能降低板路損耗。因為采用7nm甚至更先進的制程的CPU或者GPU,核電壓通常采用1V或0.8V的額定電壓供電,供電電流往往超過1000A,高電流使主板損耗大量熱量。因此DC/DC轉(zhuǎn)換器最近的技術(shù)趨勢是供電模式會從原本水平供電,走向“背后供電”。即原本的電源模組圍繞在GPU晶片的周圍,為了縮短距離,電源模組改放到芯片正下方來供電,距離縮短成僅是PCB板的厚度,從數(shù)十mm縮短至1、2mm。
電源行業(yè)報告:量價齊升周期,市場空間快速擴容-中信建投
AI技術(shù)高速發(fā)展帶來高性能服務(wù)器電源增長機遇-天風(fēng)證券