Tag: 350-601
-
桌面雲為何未能廣泛普及?
原創 YZY 閒聊服務器存儲 桌面雲端(又稱雲端桌面),其核心原理與阿里雲、騰訊雲等伺服器一致 —— 將運算功能部署在遠端伺服器,終端僅承擔顯示與資料讀取任務,無本機運算與儲存能力,搭配瘦客戶端使用時,可外接顯示器、鍵盤、滑鼠及 U 碟等裝置。 2010 年左右,桌面雲方案逐漸成熟並開始推廣,各大廠商紛紛推出相關產品。當時廠商與專家普遍預測,政府和企業會大規模採用這項技術,核心原因是它能精準解決多個用戶痛點:管理高效:運算與儲存集中在伺服器端,可遠端管控終端開關機(綠色節能是當時多數廠商的核心行銷點),系統故障也能在伺服器端統一排查解決;資料安全:終端僅負責顯示,所有資料集中儲存於伺服器,從根源杜絕了資料洩密和違規拷貝的風險;擴容經濟:前期完成伺服器系統搭建後,後期只需按需採購瘦客戶終端即可實現擴容,相比採購單台PC 能降低大幅成本。然而經過多年發展,桌面雲並未如推廣時預期的那樣取代傳統 PC,如今市場佔有率仍以傳統 PC 為主,即便在政府和企業場景中,桌面雲的佔比也未達到 50%。照理說,新技術出現後往往會逐步替代老技術,桌面雲未能廣泛普及的核心原因的如下:前期投入高:伺服器基建需要一次性投入巨額資金,對不少用戶而言門檻過高;維護門檻高:運維人員不僅要掌握 PC 和軟體相關知識,還需精通伺服器技術,專業要求遠超傳統 PC 運維人員不僅要掌握 PC 和軟體相關知識,還需精通伺服器技術,專業要求遠超傳統 PC 運維人員;時,僅影響單一設備,重啟或重裝系統即可解決;但桌面雲端伺服器端一旦出現問題,可能導致多個甚至所有終端無法使用,影響範圍極廣;隱私顧慮:如今微信辦公已成常態,而微信兼具工作溝通與私人社交功能,若所有資料均儲存於公司後端伺服器,員工無法避免個人隱私設計使用「高畫」:「大型電視設備外端」的本地運算能力更具優勢,桌面雲端難以滿足高效能需求。總結桌面雲端的適配場景更偏向高保密需求、公私資料嚴格分離、業務高度集中的產業,例如醫院、公檢法、軍工等領域,更能發揮其資料安全、集中管理的核心優勢。
-
2025年資料中心PUE優化三大技術路徑
原創 讓數據中心更智能 在”雙碳”策略與”東數西算”工程的雙重推動下,資料中心PUE優化已成為產業發展的核心命題。 2025年,隨著AI算力需求爆發,資料中心能耗壓力持續攀升,PUE優化技術路徑呈現多角化發展趨勢。 根據最新產業報告顯示,液冷技術、自然冷卻技術和供電系統優化已成為降低資料中心PUE的三大核心路徑,其中液冷技術特別引人注目,市場滲透率預計將在2025年達到25%以上,而冷板式液冷技術由於其成本低、易部署的特點,仍將是市場主流,佔液冷市場的80%以上。一、液冷技術:從”冷板式”到”浸沒式”的演進與應用液冷技術透過使用液體作為冷卻介質,取代傳統風冷方式,顯著提高了資料中心的散熱效率和能源利用效率。液冷技術主要分為冷板式液冷和浸沒式液冷兩種主流技術路線,兩者在原理、適用場景和能源效率表現上存在明顯差異1.1. 冷板式液冷技術冷板式液冷技術是目前市場應用最廣泛的液冷技術,其核心原理是透過冷卻液在伺服器內部的冷板上循環,將熱量內部的高發熱元件(如CPU)直接傳遞到伺服器內部的冷板上。這種技術的特點是冷卻液不直接接觸伺服器的電子元件,僅透過冷板間接散熱,因此對伺服器的改造要求相對較低,相容性較好,維護成本也相對較低。冷板式液冷系統主要由以下幾個部分組成:冷卻液(通常為純水或乙二醇溶液)、冷板(安裝在伺服器內部,與高發熱元件接觸)、冷卻塔、循環水泵和CDU(耦合分配單元)。冷卻液在CDU內與一次側冷卻水進行熱交換,釋放熱量後再繼續在冷卻機櫃內吸收熱量。整個系統主要用電設備為冷卻塔風機和循環水泵,無壓縮機,提高了系統能效冷板式液冷技術在資料中心的應用效果顯著。以北京某資料中心為例,該專案採用冷板式液冷伺服器,單櫃功率密度達54.5kW,其中95%的熱量由液冷負擔,剩餘部分由冷凍水房間級空調負擔。此資料中心實現了PUE值低於1.19,相比傳統風冷資料中心降低了約20%的能耗。另一個案例是寧夏某數據中心項目,主機房內有560個機櫃,單機櫃平均功率8kW,採用冷板式液冷系統後,PUE值達到1.19冷板式液冷技術的優勢主要體現在以下幾個方面:成本優勢:冷板式液鏈的TCO(總擁有成本)較低,對建築負重能力與傳統風冷機部署,根據產業數據,冷板式液冷系統的初期投資比浸沒式低約30%,維護成本也低約25%相容性優勢:冷板式液冷對現有伺服器的改造相對簡單,無需完全浸沒伺服器,因此對伺服器內部電子元件的影響較小,相容性較好。大多數主流伺服器廠商(如華為、浪潮、曙光等)都已推出支援冷板式液冷的伺服器產品。 靈活性優勢:冷板式液冷可與傳統風冷系統結合使用,形成混合式冷卻方案,可依資料中心的負載狀況及環境條件靈活調整。例如,在北京某資料中心專案中,當夏季極端天氣時室外冷卻水塔無法滿足系統所需的供、回水溫度(高於28.5℃),需啟動另一套風冷冷水機組(供、回水溫度:15/20℃)與冷塔混合後進入板式熱交換器,從而滿足系統對冷壓板式的需求冷壓板式。由於液冷系統中的管路容易出現腐蝕、沉積、漏液或堵塞等風險,且缺乏充分的規模部署驗證,目前液冷資料中心的可靠性問題存在一定爭議。此外,冷板式液冷系統中不同伺服器的壓力降差異可能導致流體流量分配不均,影響散熱效果。因此,液冷伺服器的設計需統一壓降標準,如液冷伺服器的流量為每分鐘1L時,壓損範圍應設計在一個固定的壓降數值,滿足CPU晶片的殼溫或結溫要求(40℃進水溫度)的散熱能力1.2.浸沒式液冷技術浸沒式液冷技術是液冷技術的另一種主流路線,其核心原理是將整個伺服器完全浸沒在冷卻液中,伺服器產生的熱量直接傳遞給冷卻液,透過冷卻液的循環流動或蒸發冷凝相變進行散熱。浸沒式液冷技術因直接接觸散熱,散熱效率更高,PUE值可降至1.1~1.15,是目前能源效率最高的冷卻技術。 浸沒式液冷系統主要由以下幾個部分組成:冷卻液(通常為氟化液或導熱油)、浸沒腔體、循環幫浦和熱交換設備。根據冷卻液的性質,浸沒式液冷可分為單相浸沒式液冷(冷卻液循環流動)和雙相浸沒式液冷(冷卻液蒸發冷凝相變)。其中,雙相浸沒式液冷由於利用了冷卻液的蒸發潛熱,散熱效率更高,但係統壓力變化較大,需要考慮系統的密閉性和維護人員的吸入風險浸沒式液冷技術在超算中心和AI訓練等超高密度場景中表現突出。以中科曙光E級超算系統為例,該系統採用了浸沒式液體相變的冷卻方式,單一液冷機櫃功率約168kW,共90個液冷機櫃,總功率約15000kW,每個機櫃內的定製刀片伺服器為24片,伺服器整體浸泡在充滿氟化液的封閉機櫃內。此超算中心實現了PUE值僅為1.04,是目前業界能源效率最高的資料中心之一;另一個典型案例是阿里巴巴張北和杭州的資料中心試點計畫。阿里在2017年建造了浸沒式液冷資料中心,能源效率表現突出。阿里採用的氟化液冷卻液(如3M公司的Novec)具有優異的絕緣性和冷卻性能,但成本高昂,是限制浸沒式液冷大規模推廣的主要因素。浸沒式液冷技術的優點主要體現在以下幾個方面:能源效率優勢:浸沒式液冷的PUE值可降至1.1~1.15,是目前能源效率最高的冷卻技術。根據行業數據,浸沒式液冷直接接觸散熱,無需額外的散熱設備和空間,浸沒式液冷數據中心與傳統風冷數據中心相比,可減少約1/3的機房面積,大幅提高數據中心的部署密度。噪音優勢:浸沒式液冷資料中心運作時噪音低至42dB,相比傳統風冷資料中心的60dB以上,噪音顯著降低,改善了資料中心的工作環境浸沒式液冷技術的挑戰主要集中在硬體相容性、冷卻液成本和維護複雜度。由於伺服器完全浸沒在冷卻液中,伺服器內部電子元件的耐腐蝕性和絕緣性要求較高,需要客製化的伺服器設計。此外,氟化液等冷卻液的價格昂貴,且有環保問題,如氟化物對臭氧層的破壞。最後,浸沒式液冷系統的維護複雜度高,一旦發生洩漏,處理難度高,對維運工程師的技術要求較高冷板式液冷和浸沒式液冷技術各有優劣,選擇哪一種技術取決於資料中心的規模、功率密度和預算限制。對於大多數中大型資料中心,冷板式液冷可能是更經濟、更容易部署的選擇;而對於超算中心和AI訓練等超高密度場景,浸沒式液冷可能是更好的選擇,儘管其初始投資和維護成本較高2. 自然冷卻技術:因地制宜的節能方案自然冷卻技術是利用外部自然冷源(如低溫自然成為資料中心的空調”,透過減少或完全消除機械製冷設備的使用,顯著降低資料中心的能耗根據行業報告,2025年資料中心PUE優化中,自然冷卻技術的貢獻率將達到30%以上2.1. 直通風自然冷卻技術直通風自然冷卻技術是最簡單的自然冷卻方式,透過將室外冷氣冷卻方式將室外冷卻資料中心此技術對氣候條件要求較高,適合年均氣溫較低的地區,如貴州、內蒙古等地。以華為雲貴安資料中心為例,此資料中心位於貴州省貴安新區,年均氣溫約15℃。華為採用直通風系統,冷風經大樓百葉窗送進機房,熱風經熱通道從樓頂排出,全年約180天可不啟用水冷主機熱交換,PUE值低至1.12,處於業界領先水準。直通風自然冷卻技術的實現主要取決於以下幾個關鍵因素:(1) 氣候條件:資料中心所在地區的年均氣溫、濕度和空氣品質是決定直通風技術適用性的主要因素根據氣象數據,貴陽市室外氣象參數為:夏季空調室外乾球溫度30.1℃,濕球溫度23℃;冬季室外空氣空調溫度-2.5℃,濕球溫度23℃;冬季室外空調溫度-2.5℃,濕球溫度23;結合資料中心室內參數要求,全年約94.27%的時間可直接利用自然冷源,僅需5.55%的時間需要輔助製冷(2) 過濾系統:室外空氣引入資料中心前需經過多級過濾,確保空氣潔淨度符合資料中心要求。華為雲貴安資料中心採用”三重過濾”系統,包括初效過濾、中效過濾和高效過濾,有效去除空氣中的灰塵和污染物,保護伺服器設備氣流組織:合理的氣流組織設計對於直通風系統的效率至關重要。 華為採用冷熱通道分離設計,冷空氣經由冷通道直接送入伺服器,熱空氣經由熱通道排出,減少冷熱空氣混合,提高散熱效率。直通風自然冷卻技術的優點主要體現在以下幾個方面:(1)能源效率優勢:直通風系統無需機械製冷設備,僅需風扇和過濾設備,能耗顯著低於傳統空調系統;華為雲貴安資料中心透過直通風系統,全年約180天可不啟用水冷主機換熱,預計每年可節省電力10.1億度,減少碳排放量81萬噸(2)環境友善優勢:直通風系統不使用冷媒,對環境影響較小,符合綠色資料中心的發展方向(3)運維簡單優勢:直通風系統結構簡單,維護難度低,運維工程師只需定期檢查風機和過濾設備即可直通風;自然冷卻技術的挑戰主要集中在氣候適應性和空氣品質。在氣候炎熱或空氣品質較差的地區,直通風系統的適用性有限。此外,直通風系統對資料中心的建築設計有特殊要求,如需要設置專門的冷熱通道,增加建築成本2.2. 水冷自然冷卻技術水冷自然冷卻技術是利用水作為冷卻介質,透過水的循環和熱交換為資料中心散熱的技術。此技術適合水資源豐富的地區,如沿海、湖泊週邊等地區,可以充分利用當地的水資源優勢以阿里千島湖資料中心為例,該資料中心位於浙江省杭州市淳安縣千島湖,佔地3173.75㎡,是浙江省內單體建設規模最大、新技術應用最多的資料中心。阿里千島湖資料中心採用湖水自然冷技術,巧妙地將工業與景觀用水、資料中心冷卻用水結合起來,在保證不污染環境的前提下,將現存的資源實現最大化利用具體實現方式包括:(1)湖水淨化與循環:湖水經過物理淨化後,透過密閉管道流經每層,為伺服器降溫,隨後直接供給市政景觀用水,實現了資源最佳利用(2)混合製冷模式:資料中心的空調系統採用兩路進水,分別是湖水和冷凍水,能夠實現同時或單獨運作。在湖水溫度適宜時,優先使用湖水冷卻;在湖水溫度過高時,切換至冷凍水冷卻,確保資料中心穩定運行(3)液冷系統整合:阿里自研的AliRack整機櫃伺服器,是專門為雲端運算和大數據業務的需求量身定制的,單日實體部署可達5000台,伺服器上架密度提升了30%,同時整合電源和散熱系統也能減少10%的能耗阿里千島湖資料中心的PUE值達到1.2以下,相比傳統風冷資料中心降低了約25%的能耗。 這種”水冷+液冷”的混合冷卻模式,是未來資料中心PUE優化的重要方向水冷自然冷卻技術的優勢主要體現在以下幾個方面:(1)能源效率優勢:水冷系統利用水的比熱容高的特性,散熱效率遠高於空氣,PUE值可降至1.2以下。 (2)環境友善優勢:水冷系統不使用冷媒,可與市政用水系統結合,實現水資源的循環利用,環保效益顯著。 (3)空間優勢:水冷系統可與液冷系統結合使用,提高空間利用率,適合高密度資料中心。 2.2.1.1. 水冷自然冷卻技術的挑戰主要集中在水資源利用和系統複雜度。在水資源匱乏的地區,水冷系統的適用性有限。此外,水冷系統需要處理水的淨化、循環和排放問題,系統設計和維護較為複雜2.3. 蒸發冷卻技術蒸發冷卻技術是利用水的蒸發潛熱進行散熱的技術,包括直接蒸發冷卻和間接蒸發冷卻兩種方式。蒸發冷卻技術適合溫帶和亞熱帶地區,尤其是夏季高溫高濕、冬季寒冷乾燥的地區。 在貴陽某資料中心專案中,蒸發冷卻技術與液冷技術結合使用,實現了PUE值約1.22(UPS為線上模式)或1.19(UPS為離線模式)直接蒸發冷卻技術透過填料與水接觸降溫,適合貴陽夏季濕熱氣候,但需處理露點問題。間接蒸發冷卻技術則透過室內外空氣在熱交換器內進行熱量交換,確保了室內空氣的潔淨度,適合對空氣品質要求較高的資料中心。 蒸發冷卻技術的優勢主要體現在以下幾個方面:節能優勢:蒸發冷卻系統相比傳統空調系統,可節省電量約30%~40%;環境適應性優勢:蒸發冷卻技術可以在多種氣候條件下使用,尤其是高溫高濕地區,適應性較強;初期投資優勢:蒸發冷卻系統可以在多種氣候條件下使用,尤其是高溫高濕地區,適應性較強;初期投資優勢:蒸發水電系統的初期投資相對較低,適合有限的數據中心直接蒸發冷卻需要持續補充水資源,可能增加水耗;間接蒸發冷卻則需要處理熱交換器的清潔和維護問題 3. 供配電系統優化:從”硬體升級”到”智能管理”的轉變供配電系統優化是降低資料中心PUE的第三大技術路徑,主要透過提高IT設備負載率、優化供電設備和引入智能配電設備和引入智能管理系統來實現。根據產業數據,供電系統的能耗佔數據中心總能耗的10%~15%,雖然佔比不高,但優化潛力大。 3.1. 提高IT設備負載率提高IT設備負載率是降低資料中心PUE的重要手段。 IT設備負載率指的是資料中心的IT設備實際負載與設計的滿載時IT設備負載的比值IT設備負載率越低,UPS設備的效率越低,導致UPS設備能耗增加,PUE值升高提高IT設備負載率的主要技術手段包括:(1) 虛擬化技術:透過伺服器虛擬化,將多個虛擬機器運行在一個實體伺服器上,提高伺服器速率。廣東某IDC透過虛擬化技術將伺服器使用率從60%提升至85%,PUE降低約0.152.(2) 動態負載平衡演算法:根據資料中心的負載狀況,動態調整IT設備的運作狀態,避免部分設備過載而其他設備閒置。常見的動態負載平衡演算法等(3) 仿生物智慧演算法、加權最小連結調度演算法、基於局部性的最小連結調度演算法等(3) 仿生物智慧演算法:如遺傳演算法、蟻群演算法、粒子群演算法及人工蜂群演算法等,用於最佳化資料中心的負載分配與伺服器調度,提高整體能效;提升IT負載率的關鍵設備在於建構一套隨IT負載變化的資料中心全域能效最佳化方案,可以透過設定三重閾值T₁、T₂和T₃將主機分為4種類型:負載率低於T₁時,為低載主機;負載率在T₁和T₂之間時,為輕載時,負載率在T₂和T負載調度演算法的最佳化目標即是將重載主機及低載主機上的虛擬機器遷移至輕載主機上,使重載主機的負載率低於T₃,低載主機虛擬機遷移完畢後即可使其休眠,降低IT設備能耗。 3.2. 優化供電設備優化供電設備是降低資料中心PUE的另一個重要手段。供配電設備的能源效率直接影響資料中心的PUE值,尤其是在UPS等關鍵設備上;提高供電設備能源效率的主要技術手段包括: (1)高效模組化UPS:模組化UPS具有高可用性、高擴充性和高效能三大核心優勢。以某品牌ModulonDPH系列模組化UPS為例,其在30%輕負載時效率可達95%,50%負載時效率可達96%,相較於傳統UPS在輕載時效率低的問題,顯著提高了能效(2)電源電容器組與主動濾波器:透過提高功率因數,減少線。智慧電容器組與主動濾波器可動態調整無功補償量,使功率因數從0.85提升至0.98以上,減少約5%的線損 (3)高效變壓器與配電設備:選擇低損耗的高效變壓器和配電設備,減少約電儲重量電能傳輸過程中的電力週期功率 (4)鋰離子電池相比。根據Uptime所做的全球資料中心調查,目前已有10%的資料中心採用鋰電池作為後備能源,預計未來隨著新能源以及儲能成本的降低,這一比例將進一步提高鋰電池UPS的優勢主要體現在以下幾個方面:u能效優勢:鋰電池UPS支持快速充放電,可以在電價谷時段充電,以及高峰時段放電電力成本u空間優勢:鋰電池體積小、重量輕,佔用空間少,適合空間受限的資料中心u環保優勢:鋰電池不含鉛、鎳、鉻等重金屬,是綠色環保的首選u經濟性優勢:雖然鋰電池的初始投資較高,但其壽命長(約10年以上),長期使用成本更低 3.3. 引入智能管理系統引入智能管理系統引入智能管理系統的第三大技術。透過AI和大數據分析技術,實現供配電系統的智慧調度和最佳化提高能源利用效率智慧供電管理系統的實現主要依賴於以下幾個關鍵因素:(1)資料擷取與分析:透過部署大量的感測器和物聯網關,即時擷取資料中心的IT負載、溫度、濕度、電壓、電流等多維資料(2)AI演算法預測:利用深度學習、強化學習等AI演算法,預測資料中心的負載變化趨勢與能耗需求,提前調整供配電系統運作參數3.自動化控制:透過AI系統與供配電設備的連動,實現供配電系統的自動化控制,如動態調整UPS冗餘模式(從N+1切換至N模式)以減少輕載損耗,或根據負載情況調整供電路徑,提高供電效率智慧供電管理系統的典型案例包括:廣東移動AI系統:廣東移動研發的基於AI技術的新一代DCIM管理系統已在中國移動資料中心部署並應用,通過半年的試運行,預計可降低PUE1%~3%,年節約電費約120萬元;GoogleAI模型:Google將AI神經網路模型引入資料中心能耗管理,建立了PUE的神經網路模型,提出了基於機器學習的資料中心能耗管理方法。此項技術在實際應用中可將總的冷凍功耗降低約40%,進而將資料中心的總功耗降低約15%。若以一個PUE值為1.6的資料中心為例,採用此項技術後,PUE值將降低為1.45左右華為AI聯控技術:華為在離岸風電資料中心中採用基於AI的聯控技術,將資料中心劃分為多個獨立的區間,每個區間都有獨立的供電、冷氣和水循環系統。透過AI演算法動態調度IT負載,使各區PUE盡量成直線排列,實現整體PUE的最優化智慧供電管理系統的挑戰主要集中在資料累積和演算法訓練。 AI系統需要至少6個月的歷史運作資料才能進行有效的訓練和最佳化,這對新建資料中心或資料累積不足的資料中心構成挑戰。此外,AI演算法的訓練和優化需要專業的技術支持,維運工程師可能需要接受額外的培訓才能熟練使用4. 技術路徑選擇:因地制宜的PUE優化策略資料中心PUE優化技術路徑的選擇需要綜合考慮多種因素,包括資料中心的規模、功率密度、地理位置、氣候條件、預算限制等。業界公認影響PUE的三個重要因素為氣候條件、IT設備負荷率和資料中心安全等級這些因素也應成為技術路徑選擇的關鍵考量4.1. 根據氣候條件選擇技術路徑不同氣候條件適合不同的PUE優化技術路徑,因地制宜是降低PUE的關鍵原則根據各地不同的氣候條件,可以將資料中心分為以下幾類,選擇對應的PUE最佳化技術路徑:溫帶氣候區:如貴州、內蒙古等地區,年均氣溫較低,適合採用直通風自然冷卻技術,結合冷板式液冷,實現PUE值低於1.2濕熱氣候區:如華南、東南亞等地區,夏季高溫高濕,適合採用間接冷蒸發冷卻技術,.3乾燥氣候區:如西北、中東等地區,年均濕度較低,適合採用直接蒸發冷卻技術,結合冷板式液冷,實現PUE值低於1.3沿海或湖泊週邊地區:如浙江、廣東等地區,水資源豐富,適合採用水冷自然冷卻技術,實現冷板式液冷,實現PUEUE值低於1.24.2.徑IT設備負荷率是影響PUE的關鍵因素,不同負荷率適合不同的冷卻技術IT設備負荷率較低時,一方面,UPS設備的效率降低,造成UPS設備能耗增加,PUE值升高;另一方面,IT設備未滿載安裝時,製冷能耗並不成比例能耗的增加,PUE值升高根據製冷量增加根據冷氣負載率,根據冷卻能耗升高資料中心可分為以下幾類,選擇對應的PUE最佳化技術路徑:(1) 低負載率資料中心:IT設備負載率低於60%的資料中心,適合採用虛擬化技術提高IT設備利用率,結合模組化UPS與智慧管理系統,實現PUE值低於1.4(2) 中高負載率資料中心:IT設備負載率在60%~85 %之間的資料中心,適合採用冷板式液冷技術,結合自然冷卻和智慧管理系統,實現PUE值低於1.2(3) 高負載率資料中心:IT設備負載率高於85%的資料中心,適合採用浸沒式液冷技術,結合自然冷卻和智慧管理系統,實現PUE值低於1.14.3. 根據資料中心規模選擇技術路徑。資料中心規模也是技術路徑選擇的重要考量。大型和超大型資料中心更適合採用先進的冷卻技術和智慧管理系統,而中小型資料中心則可以採用成本效益更高的解決方案根據資料中心規模,可以將資料中心分為以下幾類,選擇相應的PUE優化技術路徑:(1) 大型和超大型資料中心:如華為雲貴安、阿里千島湖等資料中心,適合採用多種技術組合,如直通風+冷板式液冷+熱回收+AI管理系統,實現PUE值低於1.2(2) 中型資料中心:如廣東佛山三山項目,適合採用模組化供配電+智慧列間空調+封閉熱通道+噴淋技術+新風等組合方案,在35℃特定工況下PUE小於1.3,15℃特定工況下PUE小於1.2(3) 小型資料中心:如企業自建資料中心,適合採用自然冷氣+高效率UPS +智慧管理系統,實現PUE值低於1.4。5. 未來趨勢展望:PUE優化技術的演進方向隨著AI算力需求的快速增長和”雙碳”目標的深入推進,數據中心PUE優化技術將呈現多元化、智能化和標準化的發展趨勢。未來幾年資料中心PUE優化技術將呈現以下發展趨勢:5.1. 液冷技術的普及與標準化液冷技術將在未來幾年迎來爆發式成長,市場滲透率預計將在2025年達到25%以上。冷板式液冷技術由於其成本低、易部署的特點,仍將是市場主流,佔液冷市場的80%以上。浸沒式液冷技術雖然能效更高,但受限於冷卻液成本和環保問題,短期內難以大規模推廣液冷技術的標準化進程將加速推進,包括液冷快速接頭標準、冷卻液標準、液冷系統設計標準等。中國信通院聯合產業各方加速在液冷領域的技術創新、試驗驗證與標準研究,持續推動液冷伺服器、冷卻液、液冷基礎設施等更新迭代,優化液冷技術解決方案,推動產業生態成熟5.2. 自然冷卻與液冷的深度融合自然冷卻技術與液冷技術的整合將成為未來資料中心PUE優化的重要方向。透過結合直通風、水冷或蒸發冷卻等自然冷卻技術與液冷技術,可以實現更有效率的散熱和更低的PUE值5.3. AI技術將在資料中心PUE優化中發揮越來越重要的作用。透過AI演算法對海量的動環擷取資料進行深度分析,挖掘資料背後的潛在規律,實現更智慧的能源管理AI驅動的智慧管理系統將從單一設備控制發展到整體系統最佳化,實現供配電、冷凍、IT設備等多系統的協同優化。例如,廣東移動AI系統通過半年的試運行,預計可降低PUE1%~3%,年節約電費約120萬元。谷歌AI模型在實際應用中可將總的製冷功耗降低約40%,從而將資料中心的總功耗降低約15%AI系統將從”預測型”向”自適應型”發展,能夠根據實時負載動態調控設備運行參數,實現能源的匹配與高效利用。未來,資料中心將更加重視AI系統的部署和應用,以實現PUE的持續優化5.4. 再生能源的廣泛應用隨著再生能源成本的不斷降低和政策的推動,可再生能源將在資料中心中得到更廣泛應用。資料中心將從單一的電力供應模式轉向”電力+再生能源”的混合供應模式,進一步降低PUE值和碳排放。根據相關研究機構預測,2025年,全國資料中心用電量將達到350太瓦時,較2021年增加62%,約佔全社會用電量的4%。為實現”雙碳”目標,資料中心將提高再生能源佔比,如太陽能、風能等,減少對傳統電網的依賴5.5. 資料中心即服務(DCaaS)的興起資料中心即服務(DCaaS)模式將推動資料中心的標準化和模組化,為PUE優化提供更靈活和高效的解決方案。 DCaaS模式透過將各類資源,如IT資源及基礎設施資源,以資源池的方式呈現給維運人員及終端用戶,用戶不需要特別關注底層硬體差異,而是能夠以統一的介面調用各類資源,獲取相關服務,實現資源按需獲取和按需擴容DCaaS模式將推動數據中心的全局能效優化,實現IT設備優化設備和基礎設施的綜合設施。例如,廣東佛山三山專案透過模組化供電+智慧列間空調+封閉熱通道+噴淋技術+新風等組合方案,在35℃特定工況下PUE小於1.3,15℃特定工況下PUE小於1.2,日常採用智慧運營,空調智慧群控、系統平台溫度耗用一張圖智慧監測與調度等高溫環境標準6. 結論與展望2025年,資料中心PUE優化已進入多元化技術路徑並行發展的階段,液冷技術、自然冷卻技術和供電系統優化成為降低PUE的三大核心路徑這些技術路徑各有優劣,需要根據資料中心的具體情況選擇合適的。在組合液冷技術中,冷板式液冷由於其成本低、易部署的特點,仍將是市場主流;浸沒式液冷雖然能效更高,但受限於冷卻液成本和環保問題,短期內難以大規模推廣。在自然冷卻技術中,直通風、水冷和蒸發冷卻各有適用場景,需依氣候條件和地理位置選擇。在供配電系統最佳化中,提高IT設備負載率、最佳化供電設備和引進智慧管理系統是三大關鍵方向。對於資料中心維運工作而言,PUE優化是一項系統工程,需要從硬體、軟體和管理多個維度綜合施策。維運工作需要不斷學習新技術、新方法,提升自己的專業能力,以因應資料中心PUE優化的挑戰。未來,隨著AI算力需求的快速成長和”雙碳”目標的深入推進,資料中心PUE優化技術將呈現多元化、智慧化和標準化的發展趨勢。液冷技術的普及與標準化、自然冷卻與液冷的深度融合、AI驅動的智慧管理系統、再生能源的廣泛應用以及資料中心即服務(DCaaS)的興起,將是未來資料中心PUE優化的主要方向在政策層面,發改委等部門印發的《資料中心綠色低碳發展專項行動計畫》明確提出,到2025年,新建/改擴建大型及超大型資料中心PUE不超過1.25,國家樞紐節點PUE不超過1.2隨著政策的不斷推進和技術創新的加速,資料中心PUE優化將取得更大突破,為數位經濟的綠色低碳發展提供有力支撐。總之,資料中心PUE優化是一項長期且複雜的任務,需要運維工程師、設備廠商、系統整合商和政策制定者的共同努力。透過選擇合適的技術路徑,結合資料中心的具體情況,資料中心可以實現PUE的持續優化,降低營運成本,提高能源效率水平,為綠色低碳發展做出貢獻! ⚠文中所列數據以及應用案例來自作者網上蒐集,均為網絡公開資料,如涉及侵權以及描述不當之處懇請批評指正。
-
AI革命徹底重塑了技術格局,但隨之而來的是對網路互聯和運算能力的全新挑戰。在面對如此龐大而複雜的AI工作負載時,我們不得不思考網路如何有效地擴展以支援數十萬個節點的規模? 傳統的資料中心任務通常可以在單一伺服器上管理,但AI訓練任務要複雜得多,需要資料在數百甚至數千台裝置之間流動,以實現無縫協同。 Ram Velaga認為,乙太網路是處理AI工作負載的首選方案,它擁有龐大的生態系統,並在資料中心中廣受認可。接下來,我們將重點討論是什麼使乙太網路成為當今AI工作負載的王牌,以及為什麼乙太網路注定會成為連接所有計算的黃金標準。 01. AI奇點是什麼? AI領域裡,有一個名詞叫做「奇點」。所謂的奇點是指機器智能達到或超越人類智能的水準,達到與人腦智能相容的時刻和狀態。然而,要實現這一目標,目前的單一晶片或多個互連晶片可提供的運算能力遠遠不夠,需要連接數萬、甚至數十萬個節點,建構一個龐大的系統網路。 那麼,網路是什麼? 乙太網路就是網路。它曾是雲端運算的網絡,現在是AI/ML的網絡,未來將繼續扮演滿足AI/ML需求的大規模網路的重要角色。 回顧過去一年,乙太網路領域取得了顯著的進展。乙太網路建立在開放標準的基礎上,擁有極開放的生態系統,支援即插即用和互通性。目前,乙太網路市場吸引了許多不同類型的參與者,2022年乙太網路連接埠的總出貨量達到60億個,這一事實突顯了乙太網路在經濟和規模經濟方面的強大優勢。 02. 乙太網路的50歲今年,是乙太網路問世50週年,這半個世紀以來,它不斷壯大。乙太網路發明者鮑伯·梅特卡夫因為對乙太網路的傑出貢獻而獲得了圖靈獎。在過去的一年裡,許多廠商宣布推出高性能交換機,以滿足AI/ML對頻寬的日益增長需求。 Broadcom宣布推出了多款高效能交換機,隨後Marvell和思科等廠商也推出了50T交換機,推動乙太網路更好地發展。 AI 集群通常有兩個不同的網路。第一種網絡,也是比較傳統的,是所有伺服器的外部或面向外部的「前端」網絡,當它們面向公共互聯網時,需要基於乙太網路和IP協定。 AI 的主要區別在於需要將大量資料輸入集群,因此管道比傳統的網路伺服器大得多。第二種是「後端」網絡,這是一個將AI 叢集資源連接在一起的獨特網路。對於AI 叢集來說,跨運算資源連接到其共享儲存和內存,並快速且沒有延遲偏差地執行這些任務,對於最大化叢集效能至關重要。 有人可能會問,前端網路是否基於以太網,而後端網路是否依賴類似InfiniBand的技術? Ram Velaga認為,其實這就是一個單一的網路──以太網,前端和後端都匯聚成一個乙太網路。 目前,全球最大的IT營運商的AI/ML基礎設施都連接在乙太網路上,而這一趨勢將持續下去。因為乙太網路擁有其它任何技術都無法匹敵的生態系統,它提供了故障排除、測試設備、監控設備,同時還支援供應商設備的靈活替換,這使得不同供應商的交換器或網路卡可以無縫協同工作。 03. RDMA有什麼問題?展望未來,我們該考慮什麼?可以看一下大語言模型的成長速度,在2020年,GPT-3具有大約1750億個參數,預計GPT-4將擁有超過1兆個參數。因此,無論是大語言模型還是推薦模型,都需要大量資源來處理模型的下一代和演進。 RDMA是實現從一個運算節點向另一個運算節點高效傳輸記憶體的技術之一。最初,它是針對InfiniBand而建造的。隨著時間的推移,RDMA不斷發展,業內廠商把RDMA移植到傳統乙太網路上,也就是RoCE。目前,RoCE和RDMA技術已經在許多擁有數千個運算節點的大規模環境中成功應用,實現了高效的資料傳輸和通訊。 然而,問題出現了。 20年前建置RDMA時,它主要用於連接一個節點到另一個節點,或或從100個節點到200個節點。因為當時,企業客戶甚至是大型石油和天然氣勘探公司購買的HPC集群通常只有256個節點,最多就1000個節點。然而,如今,擁有1萬個節點已經不是什麼稀奇事。人們開始探討更大規模,涉及10萬個節點甚至更多節點的部署。 那RDMA有什麼問題呢? RDMA在設計之初並不是為如此大的規模而建造的。首先,它不具備多路徑支持,這意味著資料只能透過一條路徑從點A傳輸到點B,而流量必須全部在這條路徑上傳輸。這導致了某些鏈路可能被浪費,而另一些鏈路可能被過度使用。 RDMA也包含了「分組傳遞」的概念,即在資料流中,所有資料包必須依序到達。這意味著第一個資料包必須在第二個之後到達,第三個必須在第二個之後到達,以此類推。而RDMA中的一項技術“Go-back-n”,意味著如果在RDMA資料流中某個資料包遺失,即使之後的資料包都已正常傳輸,也要從遺失的資料包開始全部重傳,這種方式非常低效。 此外,RDMA的設計是基於無丟包的網絡,使用了DCQCN(資料中心專用擁塞通知)而非TCP/IP協議,這使得網路非常脆弱,需要高度精密的工程處理。通常情況下,售賣系統的公司可能會希望客戶購買從光通訊設備到網路線再到整個系統的所有組件,並收取數倍費用。 04. RDMA現代化過去,RDMA的這些特性發揮了作用,但並不適用於當前技術發展趨勢。 7月,超乙太網路聯盟(UEC,Ultra Ethernet Consortium)誕生了,其目標是實現乙太網路的極高性能、超大規模以及世界上任何互聯都無法媲美的最佳經濟性。目前,已有 200 多家公司、組織和機構表示有興趣加入UEC。 UEC提出了一種解決RDMA問題的構想,稱為「Ultra Ethernet Transport」。他們採取了一系列措施來應對上述問題。總的來說,他們的理念是建立一個高效能的網絡,消除傳統RDMA中的低效率問題,以使其能夠在一個高度穩健的網絡環境中擴展到超過100萬個節點。 在超級運算領域,有一點至關重要,那就是資料包的遺失。微軟曾發表一篇論文,指出即使只有0.1%的資料包遺失,也會導致作業完成時間呈指數成長。這是因為必須回到資料包遺失的狀態,然後整個作業必須重新運行,效率非常低。 因此,UEC的目標是RDMA的現代化,這是高效能AI訓練的關鍵技術。 UEC 的傳輸協定 UET 引入了資料包級多路徑、按順序訊息完成的無序資料包傳送、高效的錯誤處理和免配置擁塞控制。這將帶來更好的負載平衡、網路利用率以及更快的 AI 作業完成時間。 總的來說,在AI/ML領域,不存在一家公司能提供所有GPU,也沒有一家公司能提供所有連網解決方案。實現規模擴展的唯一方法是建立一個由多家供應商提供加速器的生態系統,建立一個開放、基於標準、高效能並擁有最佳整體成本的互聯結構。 簡而言之,無論是在昨天、今天還是明天,乙太網路將繼續存在並將繼續塑造AI網路的未來。
-
思享家丨思科 Silicon One 以一頂三,構建靈活高效的 AI 網絡
思科聯天下 作者:蒋星 思科首席架构师, 作者:李婷婷 思科资深系统架构师 隨著 GPT,Stable Diffusion 等各種人工智能 (AI) 大模型業務的爆炸式增長, 國內外雲和互聯網企業正在掀起一場構建AI算力的新型競賽。然而單純通過堆砌更多的 GPU 並不能獲得算力的線性提升,因為面向雲計算的傳統以太網絡正在成為大規模 AI GPU 間通訊的瓶頸。隨著新一代 GPU 算力的提升,每顆 GPU 能夠產生高達 400G 的峰值通訊流量,而大模型 AI 訓練任務經常會將數據或模型分配到成千上萬的 GPU 中同步並行處理,AI 任務的定期數據分發和數據同步的通訊特性對連接 AI 服務器的網絡提出全新的要求:超高速,超大吞吐量,低長尾時延,高可靠和盡可能高的效率。 ▲圖 1. AI 數據中心業務與網絡的發展趨勢 為了解決 AI 網絡通訊的困境,目前行業中存在四種獨特 AI 網絡架構:InfiniBand、以太網、增強以太網和完全可調度的分佈式以太網(Distributed Switch Fabric, DSF)。每種技術都有優點和缺點,比如 InfiniBand 主要面向 HPC 單任務應用場景設計,提供無損傳送和低時延能力,但用於多任務/多租戶的 AI 場景時則表現欠佳,另外昂貴的線纜與配件價格、有限的生態系統和產品更新迭代的速度,都令業界多一層考量。以太網由於生態、成本和快速技術迭代正在成為 AI 網絡備受關注的技術。根據 JP Morgan 市場預測,到 2027 年基於以太網技術的…
-
技術丨思科與 Apple 攜手拓路技術創新
技術丨思科與 Apple 攜手拓路技術創新 思科聯天下 思科聯天下 作者:Matt MacPherson, 思科無線研發部創新實驗室首席技術官 出於盡力改善用戶連接體驗、提高 IT 團隊支持能力的共同目標,自 2015 年起,思科與 Apple 圍繞如何利用技術創新優化用戶上網體驗展開了合作。為了實現這個目標,我們聯合開發了一系列解決方案,在設備和無線網絡之間針對特定應用進行優化。這些解決方案結合了網絡和設備分析,可以幫助網絡管理員更快地發現和解決問題,為連接的可靠性和安全性提供保障,同時也能針對特定業務進行策略配置,大幅提高工作效率。 圖片 Fastlane+ 讓 Wi-Fi 6 更智能! 思科與 Apple 推出的最新合作成果:Fastlane+,以現有的 FastLane QoS 功能為基礎,增加了旨在優化應用體驗的高級調度智能技術,因此能夠更好地洞察應用的需求,動態調度網絡資源來滿足它們。 在 Fastlane+ 中,我們運用了 Wi-Fi 6 標準中的確定性調度技術(OFDMA 和 TWT)。在人群高度密集的環境中(信道使用率為 60% 或更高),Fastlane+ 可以讓 iPhone 和 iPad 設備向 Cisco Catalyst 無線接入點發送高級調度請求 (ASR) 觸發器,從而通知網絡:用戶正在啟動 Webex、FaceTime 或其他任務關鍵型、延遲敏感型應用。 Fastlane+ ASR 觸發器由流量週期性及其比特率等信息組成,因為語音和視頻流量往往有可預測的周期性比特率、流量模式、帶寬和延遲要求。 Fastlane+ 可使網絡預估客戶端的要求,進而預先在無線接入點上調度信道佔用時間。這為設備和網絡提供了雙向優化,也讓網絡能夠智能地決定如何為終端用戶提供最佳體驗。 為業務關鍵型、延遲敏感型應用帶來更好的用戶體驗…
-
思享家丨2022,思科 400G 相干光技術發展 “ 大年 ”
思享家丨2022,思科 400G 相干光技術發展 “ 大年 ” 原創 思科聯天下 思科聯天下 思享家 是一個介紹如何利用思科先進技術解決客戶難題的欄目。每期聚焦一個技術熱點或應用場景,邀請資深思科技術專家深入淺出地介紹,為讀者提供實用性強的建議。 去年,在我參加完開放數據中心委員會(ODCC)2021 夏季全會後,曾預測今年將會是 400G 和數字相干光技術快速商用的一年。在上週四(6 月 2 日)的開放數據中心委員會(ODCC)公開線上會議中,我和思科解決方案架構師忻賢良分享了 400G ZR/ZR+ 數字相干光可插拔模塊技術的最新進展,以及新型 IP+光傳輸融合網絡架構的演進與實踐,這些都印證了我之前的預測。 在為大家介紹思科推出的一系列新技術前,先給大家科普一下數字相干光技術的應用領域。 隨著視頻內容快速增長、大數據與人工智能應用的普及,尤其是移動辦公與居家辦公成為新常態,網絡流量在未來的幾年中還會保持高速增長。如何保證網絡容量增長的同時降低成本,則成為互聯網企業和電信運營商日益關注的要點。 數字相干光技術是高速(200G+)長距離(80KM+)傳輸的關鍵技術。長期以來受限於復雜的數字信號處理芯片的尺寸與功耗,再加上光學器件的尺寸過大以及裝配,封測複雜等生產工藝的限制,數字相干光系統一直存在體積大、成本高、功耗高等諸多限制,因而難以大規模普及。 思科利用核心前向糾錯算法(FEC)的優化和最新 7nm 製程,成功地將數字處理芯片實現微型化量產,並大幅度降低功耗。同時設計了獨特的矽光子集成電路,將光學處理單元進一步微型化。並結合多芯片封裝技術使得組裝和封測更加方便,大幅度提升產量與良品率。思科在電域、光域和封裝多領域的協同創新造就了數字相干系統加速向微型化、低功耗、可插拔模塊化轉型(DCO)。 傳統數字相干光領域由於缺乏統一標準,不同廠家的技術與產品難以兼容與互通,這使得整個產業受限於規模效應難以得到快速的發展。思科與行業頭部企業在 OIF 標準化組織的框架下,共同製定了面向城域網互聯場景的 400G ZR DCO 行業標準。該技術標準簡化了數據封裝格式,並面向城域網 120 公里的應用場景進行優化,大大降低了系統的複雜程度和成本,從而加速了 400G ZR DCO 全行業的發展。 在 2022 年的 OFC 大會上來自傳輸、數據和測試儀表的眾多廠家共同完成了多廠家多系統的互聯互通演示與測試,從而進一步證明了 400G ZR DCO 領域的開放性與產業鏈的快速發展。在國內多家互聯網與運營商企業也都相繼完成了多廠家數據專業與傳輸專業的技術測試,以及跨專業,跨廠家的互聯互通測試,進一步推動了 400G ZR DCO 技術在中國的發展與落地。 在面向長途、高性能數字相干領域,思科也在推動技術與產品向微型化可插拔模塊方向演進。思科與行業頭部用戶和企業共同設立了…
-
CCNP 數據中心認證和培訓
CCNP 數據中心認證和培訓 使用數據中心網絡解決方案證明您的技能 獲得 CCNP 數據中心認證證明了您在數據中心解決方案方面的技能。要獲得 CCNP 數據中心認證,您需要通過兩門考試:一門涵蓋核心數據中心技術,另一門是您選擇的數據中心專業考試,這樣您就可以根據自己關注的技術領域定制您的認證。 考試和推薦培訓 要獲得 CCNP 數據中心資格,您需要通過兩項考試:核心考試和您選擇的數據中心集中考試。現在,CCNP 數據中心計劃中的每項考試都獲得了個人專家認證,因此您在整個過程中的成就都會得到認可。 核心考試側重於您對數據中心基礎架構的了解。核心考試也是CCIE數據中心認證的資格考試。通過核心考試將使考生有資格在其核心考試有效期內安排和參加 CCIE 實驗室。 集中考試側重於新興和特定行業的主題。您可以通過參加相應的思科培訓課程來準備集中考試。 必修考試 推薦培訓 核心考試: 350-601 DCCOR 實施和運營思科數據中心核心技術 (DCCOR) 集中考試(選擇一項): 300-610 DCID 設計思科數據中心基礎設施 (DCID) 300-615 DCIT 思科數據中心基礎設施 (DCIT) 故障排除 300-620 DCACI 實施思科以應用為中心的基礎設施 (DCACI) 300-625 DCSAN 配置 Cisco MDS 9000 系列交換機 (DCMDS) 300-630 DCACIA 實施思科以應用為中心的基礎設施 – 高級 (DCACIA) 300-635 直流自動 為思科數據中心解決方案…
-
CCIE數據中心核心技術考試:350-601
實施思科數據中心核心技術(350-601 DCCOR) 支持遠程認證考試 在線考試 350-601 DCCOR 認證:CCNP數據中心,CCIE數據中心,思科認證專家-數據中心核心 片長:120分鐘 考試概述 該考試測試您對實施核心數據中心技術的知識,包括: 網絡 計算 儲存網絡 自動化 安全 考試準備 思科官方培訓 實施和運營思科數據中心核心技術(DCCOR) 安排考試 登錄到Pearson VUE的帳戶 。 選擇“專業考試”,然後輸入考試編號350-601。 按照提示進行註冊。
-
Implementing Cisco Data Center Core Technologies (350-601 DCCOR)
350-601 DCCOR Certifications: CCNP Data Center, CCIE Data Center, Cisco Certified Specialist – Data Center Core Duration: 120 minutes 考試概述 該考試測試您對實施核心數據中心技術的知識,包括: 網絡 計算 儲存網絡 自動化 安全 考試準備 思科官方培訓 實施和運營思科數據中心核心技術(DCCOR) 安排考試 登錄到Pearson VUE的帳戶。 選擇“ Proctored Exams”,然後輸入考試編號350-601。 按照提示進行註冊。 實施和運營思科數據中心核心技術(DCCOR)v1.0 您將在本課程中學到什麼 實施和運營思科數據中心核心技術(DCCOR)v1.0課程可幫助您為思科®CCNP®數據中心和CCIE®數據中心認證以及高級數據中心角色做好準備。在本課程中,您將掌握實現數據中心計算,LAN和SAN基礎架構所需的技能和技術。您還將學習數據中心自動化和安全性的基本知識。您將獲得有關部署,保護,操作和維護Cisco數據中心基礎架構的實踐經驗,其中包括:Cisco MDS交換機和Cisco Nexus交換機;思科統一計算系統(CiscoUCS®)B系列刀片服務器和思科UCS C系列機架服務器。 本課程(包括自定進度的材料)可幫助您準備考試,以及實施Cisco數據中心核心技術(350-601 DCCOR)的知識,該考試將導致新的CCNP數據中心,CCIE數據中心和Cisco認證專家-數據中心核心認證。考試將於2020年2月24日開始。 購買在線學習 購買在線學習 尋找課程 尋找課程 思科學習庫 思科學習庫 私人團體訓練 私人團體訓練 尋找其他購買培訓的方式嗎?聯繫我們 持續時間福利報名技術課程詳細信息 課程時間 講師指導的培訓:在課堂上進行為期5天的動手實驗室練習,另加相當於3天的自定進度的教材 虛擬講師指導的培訓:5天的網絡課程和動手實驗室實踐,以及相當於3天的自定進度的教材…