Author: admin

如何提高GPU使用效率－淺析GPU資源監控及虛擬化

原创 twt社区【摘要】在數位化高度普及的時代，智慧AI能力的應用已成為企業提升服務品質與效率的重要手段，GPU強大的運算能力可以加速自然語言處理模式的訓練與推理過程，將GPU算力高效率的應用到合適的場景中，可以為企業提供低成本且高品質的服務。但因現在客觀存在GPU算力供應鏈卡脖子問題，GPU高階卡取得途徑有限，中低端卡供應也出現供不應求，算力價格持續走高，算力資源尤為珍貴，在此背景下，GPU資源的高效利用顯得尤為重要。如何有效運用GPU資源、提高資源利用率、降低系統的營運成本，以更低的成本為客戶提供更好的服務，成為近年金融企業聚焦的熱門地點。考慮提升GPU使用效率的方案，主要有加強資源監控，避免資源閒置以及做好資源使用、進行GPU池化與虛擬化。【作者】哲哲蛙（筆名），某城商行技術經理，長期服務於資訊科技部門，熟悉大型企業的IT資料中心基礎平台的建置與維護工作。一、GPU資源監控 1.1 GPU監控為了提升GPU資源利用效率，必須做好對資源使用效率的監控，避免應用程式對於GPU資源使用的「高配低效」。一些應用開發廠商或維護人員，為了確保自己的程式運行，可能存在「圈地」思想，放大對於資源需求的評估，但實際運行並不需要那麼大的資源，或者程式並非7*24小時都在相對高負載運行，而是每天大多數時間段均空負載處於閒置狀態。因此算力管理員就需要做好GPU資源監控，以便更好的掌握資源使用狀況，及時評估管理珍貴的GPU算力資源。此外，GPU的監控對於提升應用能力，還能發揮更多正向作用。透過GPU監控，確保模型訓練和推理過程中GPU資源的穩定供應，加速模型的訓練和更新速度，及時調整風險評估策略。透過監控GPU資源的使用情況，優化相關模型的訓練與部署。保障系統穩定性：銀行的許多業務關鍵系統如風險評估、詐欺偵測等依賴GPU的強大運算能力來處理大量複雜資料。透過即時監控GPU的溫度、使用率、記憶體佔用等指標，維運人員可及時發現潛在問題，避免系統崩潰或效能下降，確保銀行業務的持續穩定運作。最佳化資源分配：銀行通常有多種業務同時運行，對GPU資源的需求各異。監控GPU的使用情況有助於了解不同業務在不同時段對GPU資源的佔用，進而根據業務的優先順序和資源需求動態分配GPU資源，提高資源利用率，降低營運成本。提升業務效率：在人工智慧和大數據分析廣泛應用於銀行業務的背景下，快速且準確的GPU監控能夠幫助銀行更快地訓練和部署機器學習模型，如信貸風險評估模型、市場趨勢預測模型等，進而提升業務決策的速度與準確性，增強銀行的市場競爭力。 1.2 GPU 監控的常用工具和技術目前金融客戶市場中主流的GPU仍然是英偉達，國內一些國產GPU也開始有了應用，國產GPU有圖形渲染GPU和高效能運算GPU（GPGPU）兩種。其中圖形渲染GPU例如寒武紀MLU370、摩爾線程MTT S80；另一類高效能運算GPU，例如壁仞科技BR100、沐曦MXN AI和MXC GPGPU、中科曙光DCU以及近年來生態穩步提升的華為昇騰顯示卡等。目前針對GPU的監控，有硬體廠商自己提供的產品方案以及開源方案兩種，例如NVIDIA官方提供的nvidia-smi工具，可用於查詢和監控N卡GPU的狀態信息，包括GPU的使用率、記憶體使用狀況、溫度、風扇轉速等基本指標，硬體廠商提供的監控方案，通常有一定的限制，只能提供針對自己的產品的監控能力。另外，一些開源方案例如GPUSTAT，則是基於Python 的輕量級命令列工具，利用nvidia-smi獲取數據，並以命令列輸出形式呈現GPU的狀態和效能，支援自訂刷新率、選擇要監視的GPU以及與其他監控系統集成，適用於自動化腳本和持續集成流程。目前國內部分平台監控GPU資源採用此方案較多，透過開源Prometheus 配置採集GPU的相關指標數據，配合Grafana進行圖形化展示，將採集到的GPU數據以直覺的圖表形式展示，採用此方案的通常打造成一個通用的平台，提供多種GPU的監控能力。以某城商行採用的監控方案為例，其企業探索採用的Prometheus結合Grafana監控方案，是在GPU Kubernetes集群中，透過部署kube-prometheus stack建構監控體系實現監控。其主要原理還是透過容器搭建管理平台，並透過容器的agent採集，向平台匯總資料如下： (a)每個運行vGPU組件的Kubernetes節點上部署DCGM-Exporter，定期從GPU設備中獲取資料並通過HTTP介面暴露出來供Prometheus進行讀取存取。建立ServiceMonitor資源對象，定義如何透過vGPU調度器收集指標。 (b)部署了Prometheus定期抓取包括GPU算力、顯存、溫度等各種指標數據，將其儲存在時間序列資料庫中。 (c)系統整合了Grafana視覺化展示工具，配置Prometheus為資料來源，並導入專為GPU監控設計的儀表板，提供了針對虛擬化GPU的關鍵效能指標，如算力利用率、顯存使用等。透過視覺化介面維運人員可以即時查看詳細的GPU監控訊息，從而及時發現潛在問題並優化資源配置策略，並且可以設定警告閾值，當GPU利用率過高、溫度過高等情況發生時，自動發送警告通知，從而及時發現和處理潛在問題。二、GPU資源的虛擬化技術在GPU資源昂貴的背景下，採用GPU虛擬化技術，是提高資源使用率的一大利器。 GPU 資源的虛擬化技術主要有基於硬體輔助的虛擬化、基於驅動隔離、基於 API 轉送以及基於容器的GPU虛擬化幾類。其中前兩類主要是由硬體廠商提供的方案，而基於 API 轉送以及基於容器的GPU虛擬化主要是使用者態實現的虛擬化方案。基於硬體輔助的虛擬化借助GPU硬體本身俱備的虛擬化功能來實現資源的高效分配和共享。例如，一些GPU晶片內部設定專門的虛擬化模組，這些模組可以直接對GPU的核心、顯存、快取等重要資源進行精細的劃分和管理，將一個GPU顯示卡物理上分割成多個小型顯示卡提供服務。以AMD 的部分GPU產品為例，其硬體輔助的虛擬化技術能夠將GPU的運算單元、顯存等依照預先設定的規則分配給不同的虛擬機器或應用，實現硬體層面的資源隔離與共用。基於硬體輔助的虛擬化效能優勢明顯，由於是在硬體層面直接進行資源分配和管理，減少了軟體層面的干預，能夠最大程度地降低虛擬化帶來的效能損失，提高GPU資源的利用效率，可以依實際需求對GPU的各項資源進行配置，滿足不同業務場景的要求。但這種方式最主要的短板在於對GPU硬體本身是否具備硬體劃分能力要求較高，只有具備相應硬體虛擬化功能的GPU才能採用，且通常劃分的顆粒度較粗。基於驅動隔離的虛擬化，主要是透過對GPU驅動進行改造，使其能夠在多個虛擬機器或容器之間提供隔離的執行環境。 GPU廠商透過自己的驅動虛擬化，提供不同的VM 或容器各自獨立的驅動實例，這些實例共享實體GPU的硬體資源，不同的使用者或應用在各自的虛擬環境中都能像獨佔GPU一樣使用驅動功能。基於驅動隔離的虛擬化，提供了較好的隔離性，不同虛擬環境之間的干擾較小，能保障應用的穩定性與安全性。可根據不同虛擬環境的需求靈活配置驅動參數，並提高資源利用效率。對驅動的改造需要GPU廠商的支持，而且不同版本的驅動和GPU型號可能需要針對性的適配工作，開發和維護成本相對較高。基於 API 轉送的虛擬化，主要是透過在虛擬機器（VM）和實體GPU之間攔截並轉送圖形應用程式介面（API）調用，實現多個 VM 對GPU的共用。例如，當 VM 中的應用程式發出 DirectX 或 OpenGL 等 API 呼叫時，中間層軟體會截取呼叫指令，然後將其轉送到實體GPU上執行，並將執行結果傳回 VM 中的應用程式。基於API…

12/28/2024
AWS SAA-C03考試概覽

類別:Associate 考試時長:130 分鐘考試題型:65 題；單選題或多選題考試費用:150 USD 考試選項:Pearson VUE 考試中心或線上監考考試提供的語言:英語、法語（法國）、德語、義大利語、日語、韓語、葡萄牙語（巴西）、簡體中文、西班牙語（拉丁美洲）、西班牙語（西班牙）和繁體中文 AWS Certified Solutions Architect – Associate (SAA-C03) 考試是為擔任解決方案架構師角色的人員,驗證您在AWS 服務方面的技術知識和技能.考試旨在檢查考生能否設計基於 AWS Well-Architected Framework 的解決方案。同時，也考查考生能否完成以下任務： • 設計融入了 AWS 服務的解決方案，從而滿足當前業務需求和預期的未來需求 • 設計安全、有彈性、高效且最佳化了成本的架構 • 檢視現有解決方案並確定改進目標考生描述目標考生應至少具有設計使用 AWS 服務的雲端科技解決方案的 1 年動手實作經驗。有關考試中可能出現的技術和概念的列表、考試範圍內的 AWS 服務和功能的列表，以及超出考試範圍的 AWS 服務和功能的列表，請參閱附錄。考試內容答案類型本考試有兩種類型的試題： • 單選題：有一個正確答案和三個錯誤答案（幹擾項） • 多重選擇題：在…

12/21/2024
IBM 認證 watsonx 資料科學家 – 助理:C1000-177

認證概覽助理資料科學家擁有基本的資料科學技能和知識，可以使用 IBM watsonx.ai 透過機器學習解決方案解決商業問題。這包括將機器學習解決方案與企業需求連結並了解何時應用企業人工智慧工作流程的能力。此助理級考試的概念包括：問題範圍和工具選擇探索性資料分析特徵工程模型訓練與選擇模型評估推薦技能 Python R 描述性統計預測分析要求考試 C1000-177：使用 IBM watsonx 的資料科學基礎考試目標在考試開發過程中，主題專家 (SME) 定義個人成功履行產品或解決方案角色所需的所有任務、知識和經驗。這些由以下目標代表，考試中的問題是基於這些目標。問題數： 61 待通過的問題數： 43 允許時間： 90分鐘狀態：即時第 1 部分：評估業務問題16% 第 2 部分：執行探索性資料分析21% 第 3 節：開發工具與技術13% 第 4 節：預處理和特徵工程33% 第 5 節：模型選擇、訓練、評估與演示17% Sample TestExam: C1000-177 Foundations of Data…

12/07/2024
零基礎入門Splunk：建置高效率資料分析環境

零基礎入門Splunk：建立高效資料分析環境引言在當今資料驅動的時代，Splunk作為一款強大的機器資料分析工具，廣泛應用於日誌管理、安全資訊和事件管理等領域。本文將帶你深入了解Splunk環境，幫助你快速掌握這項利器。一、Splunk簡介Splunk是一款用於搜尋、監控和分析機器資料的軟體。它能夠處理大量非結構化數據，幫助用戶發現數據中的隱藏價值。二、Splunk環境建置 1. 系統需求作業系統：支援Windows、Linux、macOS硬體設定：至少4核心CPU、8GB記憶體 2. 安裝步驟下載Splunk：存取Splunk官網下載適合你作業系統的安裝套件。安裝軟體：雙擊安裝包，依照指示完成安裝。啟動Splunk：安裝完成後，開啟Splunk，選擇「Start Splunk」。三、Splunk介面概覽啟動後，你會看到Splunk的主介面，主要包括以下幾個部分：搜尋欄：用來輸入搜尋查詢。側邊欄：包含資料來源、儀表板等功能入口。主顯示區：展示搜尋結果和分析圖表。四、資料導入 1.資料來源類型Splunk支援多種資料來源，包括日誌檔案、網路資料、資料庫等。 2. 資料匯入步驟新增資料來源：點選側邊欄的“Add Data”，選擇資料類型。配置資料來源：根據提示配置資料來源路徑和參數。索引數據：完成配置後，Splunk會自動索引數據，使其可搜尋。五、基礎搜尋語法 1. 簡單搜尋error 搜尋包含“error”的日誌。 2. 時間範圍搜尋 error earliest=-7d@d latest=@d 搜尋過去7天內包含「error」的日誌。六、實戰案例案例一：分析Web伺服器日誌匯入日誌：將Web伺服器日誌匯入Splunk。搜尋請求：sourcetype=access_combined status=404 尋找所有404錯誤請求。視覺化分析：使用Splunk的圖表功能，分析錯誤請求的分佈。七、總結透過本文，你已初步掌握了Splunk環境的搭建與使用。接下來，建議你多實踐，逐步深入探索Splunk的強大功能。參考資料 Splunk官方文件 Splunk社區

11/30/2024
網路設定中把DNS改為114.114.114.114真的能提高網路速度嗎？如何提高網路速度？

來源於:掌中IT发烧友圈 01.DNS改為114.114.114.114不一定能提高網速，把DNS設為「114.114.114.114」這一公用DNS伺服器，只是設定DNS伺服器位址的可行選擇而非必須或唯一的選擇。如果DNS伺服器位址設定不當，可能會導致網路速度慢、出現彈窗廣告、網址打不開、開啟不是自己想要的網站等一系列問題。正確設定DNS的解決方法： 1.建議使用ISP預設分配的DNS，只有在特別需要的情況下再使用公共DNS。在安裝和提供寬頻上網服務時，運營商工作人員就會告知並設定好DNS參數。如果不清楚，還可電話諮詢。 2.建議使用的公用DNS伺服器，可與ISP分配的DNS伺服器做一下比較，選擇最適合的使用。 A.DNSPod DNS+：DNSPod的 Public DNS+是目前國內第一個支援ECS的公共DNS，是DNSPod推出的公共網域解析服務，可以為全網用戶提供網域的公共遞歸解析服務！ DNS 伺服器IP 位址：首選：119.29.29.29 備選：182.254.116.116 B.114DNS：國內用戶量龐大的DNS，存取速度快，各省都有節點，同時滿足電信、聯通、移動各運營商用戶，可有效預防劫持。 DNS 伺服器IP 位址：首選：114.114.114.114 備選：114.114.114.115 C.阿里AliDNS：阿里公共DNS是阿里巴巴集團推出的DNS遞歸解析系統，目標是成為國內網際網路基礎設施的組成部分，並提供網路使用者「快速」、「穩定」、「智慧」的免費DNS遞迴解析服務。 DNS 伺服器 IP 位址：首選：223.5.5.5 備選：223.6.6.6 3.路由器端DNS伺服器的設定：（1）輸入路由器IP位址：在瀏覽器位址列內輸入路由器IP位址（可參閱路由器說明書或查看路由器背面銘牌上的說明），如：192.168.1.1，並回車。（2）登入路由器：進入路由器登入介面後，輸入登入帳號、密碼（可參閱路由器說明書或查看路由器背面銘牌上的說明），一般皆為：admin或boot。如果原來使用的是預設帳戶和密碼，則需要進行修改，並做好記錄。（3）設定DHCP：選擇進入DHCP伺服器選項卡，點選「啟用」DHCP，設定好IP位址（位址池開始位址和結束位址可依預設值設置，其最大限值一般為192.168.1.2~192.168. 1.255，192.168.1.1保留為網關）、網關（一般是路由器的IP位址如本例中的192.168.1.1）、DNS伺服器位址（不同地區適用的DNS伺服器位址不同，最好根據網路服務商提供的設置，也可設定為上述提供的公共DNS伺服器）等相關參數並保存。（4）重新啟動路由器：設定完成後，要重新啟動路由器才能生效，重啟方法，在系統工具下面，選擇「重新啟動路由器」這一項即可。 02.DNS改為114.114.114.114不一定能提高網路速度。 DNS設定優劣順序如下：首選業者提供的DNS業者提供的DNS一定是最優的。例如當電信使用者造訪網站網域時，電信DNS會將網域名稱解析到電信IP(該網域沒有電信站點才會解析到其他站點)，這樣確保電信使用者造訪的是電信站點，速度最快。同理，聯通，行動用戶用自己運營商的DNS效果最佳。次選國內第三方公共DNS這些第三方DNS可以做到根據用戶來源位址來判斷從而解析到相應較快的伺服器。優先順序：1.公共DNS 114.114.114.114；2.BAT的DNS。百度180.76.76.76；阿里223.5.5.5/223.6.6.6；騰訊119.29.29.29；效果都差不多。造訪國外網域用GoogleDNS造訪國外網域用Google依然是最好的選擇，國內DNS有些網域會被封鎖。當遇到網域解析不正常或DNS故障，選擇合適的DNS可以加快網域解析速度和準確性，可以提高存取速度。

11/22/2024
「考試 AZ-104：Microsoft Azure 管理員」的學習指南

2023 年 10 月 26 日開始測試的技能受眾概況參加AZ-104考試的考生應具備在實現、管理和監視組織的 Microsoft Azure 環境方面的主題專業知識，包括虛擬網路、儲存、運算、識別、安全性和治理。 Azure 管理員通常會在一個較大團隊中致力於實現組織的雲端基礎架構。也要與其他角色協調配合，以提供 Azure 網路、安全性、資料庫、應用程式開發和 DevOps 解決方案。你應該熟悉以下內容：作業系統網路伺服器虛擬化此外，你還應具有以下方面的經驗： PowerShell Azure CLI Azure 入口網站 Azure 資源管理器模板 Microsoft Entra ID 技能概覽管理 Azure 識別與治理 (20–25%) 實現和管理儲存 (15% – 20%) 部署並管理 Azure 運算資源 (20% – 25%) 實現與管理虛擬網路 (15–20%) 監控和維護 Azure 資源 (10…

11/15/2024
我是剛畢業不久的安全新人，女生，身為前輩，你們能給我一些職業上建議或避坑指南麼？

原创 heyong BurpSuite实战教程對網路安全產業來說，透過最近幾年的快速發展，已經越來越趨向傳統的網路產業。加上這幾年的情勢變化，許多安全廠商虧錢，裁圓。身為剛畢業的新人，確實有點迷惘。昨天在微信群組裡，就此類問題，網友們展開了深入的討論。整體來說，分為以下兩類：勸退流：建議趁早改行務實流：給了一些中肯的建議以下將大家的討論，歸納總結如下文。 01 勸退流勸退流的同學認為，當前環境下，不建議再繼續熬在安全行業裡，不值得：趁著還是應屆生，考個編吧，安全產業的編制還是比較多的。若學歷比較好，電腦本碩博，建議考體制內網信辦。如果家裡有條件的就考公，沒條件最好找老公（沒有性別歧視，高學歷畢業後，確實也到了談婚論嫁的年紀）轉行其他的，如女孩考公安內的編制、小學微機教師，都很香 02 務實流務實流主要為可靠大叔們，他們的建設比較務實和中肯，值得仔細閱讀：要保持熱愛和持續學習的動力，安全領域是一個不斷發展的行業累積實務經驗，盡可能多參與專案。經驗獲取來源很多，論壇，社區，交流會等加入團隊和考取證書，培養自己的團隊合作精神要有明確的職涯規劃，是走技術路線深入，還是安全管理，都要有階段性的規劃。建議工作、學習一段時間就停一下審視這階段的成果，不足和改進的地方。充分發揮自己的性別優勢，加強溝通能力的鍛煉，這在推動安全管理、安全法規方面特別有用武之地加強對法律法規、安全標準、數據安全等的學習，可以擴充自己知識面，若從事這方面工作，也相對有優勢技術除非自己有興趣，否則不需要深入，把基本邏輯搞清楚，概念搞清楚就行了工作落在哪裡了？北上廣就磕技術，家鄉就盡快考上公務員或央國企 03 其他觀點除了這些，群友們紛紛發表了其他的建議，【職課君】看了很是感動：關於行業：從事安全，短期有點錢途，但是長期沒啥前途關於生活：不要忘記自己的個人生活，找個好的歸宿是最重要關於技術：動手做，把基礎的原理弄清楚，不斷學習，例如搞懂工具的原理，從手冊開始關於未來：安全產業還能做很久，出於個人熱愛，可以一直做下去；出於賺錢，短期可以做；出於抱負，做幾年盡快轉崗 04 結語對於這個女生的問題，最後想說的是：當前階段，不用想那麼多！得先有一份工作，才能更好地選擇做自己喜歡的工作。大多數人上班是迫於無奈，跟著自己的心走，別人的建議只供參考。

11/09/2024
微軟認證考試考試 AZ-800: 管理 Windows Server 混合式核心基礎結構

AZ-800:Administering Windows Server Hybrid Core Infrastructure認證介紹參加此考試的考生負責配置和管理 Windows Server 本機、混音和基礎結構即服務 (IaaS) 平台工作負載。身為 Windows Server 混合式管理員，你有以下任務： 1.將 Windows Server 環境與 Azure 服務整合。 2.在本機網路中管理 Windows Server。 3.此角色要在 Azure 中管理和維護 Windows Server IaaS 工作負載，並將工作 4.負載遷移和部署到 Azure。你通常會與以下人員協作： Azure 管理員企業架構師Microsoft 365 管理員網路工程師參加此考試的考生使用本機、混合和雲端技術部署、打包、保護、更新和設定 Windows Server 工作負載。此角色要實現和管理本地和混合解決方案，例如識別、安全性、管理、運算、網路、儲存、監視、高可用性和災難復原。你要使用管理工具和技術，例如 Windows Admin Center、PowerShell、Azure Arc、Azure Policy、Azure Monitor、Azure 自動化更新管理、Microsoft Defender for Identity、Microsoft Defender…

11/02/2024
網路工程師指南：交換器如何處理網路拓撲變化

原创晚云浅晴间多云本文詳細介紹了交換器在處理網路拓撲變更中的響應與處理方法。首先，闡述了網路拓撲變化的定義及其對網路效能與穩定性的影響。接著，解析了交換器如何使用生成樹協定（STP）及其變種（RSTP和MSTP）來防止環路並自動調整網路結構。 1. 網路拓撲變化的基本概念與重要性網路拓撲變化的定義及其在動態網路環境中的常見場景網路拓撲變化是指網路中設備、連結或配置的改變，導致網路結構發生變化。常見場景：設備故障、連結中斷、新設備存取、網路擴充等。拓樸變化對網路效能與穩定性的影響效能影響：拓樸變化可能導致網路延遲增加、封包遺失或網路擁塞。穩定性影響：頻繁的拓樸變化可能導致網路不穩定，影響業務的連續性和可靠性. 2. 交換器處理拓樸變化的工作原理交換器如何使用生成樹協定（STP）防止環路，並自動調整網路結構STP：STP透過計算生成樹，防止網路中出現環路，確保封包能夠正確轉送。自動調整：當網路拓樸改變時，STP會重新計算生成樹，自動調整網路結構，確保網路的連結性。快速生成樹協定（RSTP）和多實例生成樹協定（MSTP）的作用及其優勢RSTP：RSTP是STP的改進版本，能夠更快地回應拓撲變化，減少網路收斂時間。 MSTP：MSTP允許多個VLAN共享一個生成樹實例，減少資源消耗，提高網路效率。 3. 如何設定交換器以因應拓樸變更步驟詳細描述如何在交換器上設定STP和其變種，以支援快速的拓樸變更回應 1. 啟用STP/RSTP/MSTP：使用指令列介面（CLI）進入交換器設定模式。啟用對應的生成樹協定（如STP、RSTP或MSTP）。 2. 設定連接埠優先權和橋接優先權：設定埠優先權，確保關鍵連結優先被選取。設定橋接優先權，確保關鍵交換機優先成為根橋。 3. 設定VLAN和生成樹實例：建立VLAN，並將VLAN對應到對應的生成樹實例。配置生成樹實例的參數，確保網路拓撲變更時能夠快速回應。說明如何設定連接埠優先權、橋接優先權等參數以最佳化網路效能連接埠優先權：透過設定埠優先權，可以確保關鍵連結優先被選中，減少網路收斂時間。橋接優先級：透過設定橋接優先級，可以確保關鍵交換機優先成為根橋，優化網路結構。 4. 拓樸變更後的故障排查與網路復原討論在拓樸變更後如何識別和解決常見問題，如連線中斷或延遲增加辨識問題：使用網路監控工具（如Wireshark、PRTG）辨識連線中斷或延遲增加的問題。解決方法：檢查生成樹協定的配置，確保連接埠狀態正確，調整連接埠優先權和橋接優先權，優化網路結構。提供使用日誌和監控工具來追蹤拓撲變化的方法日誌分析：查看交換器的日誌，分析拓撲變化的時間點和原因。監控工具：使用網路監控工具即時追蹤網路拓撲變化，及時發現並解決問題。 5. 拓樸變化處理的實戰案例實際案例，展示如何在特定環境中配置交換器以應對拓撲變化，並分析遇到的問題與解決方案案例背景：某公司網路中，由於設備故障導致網路拓撲發生變化，部分業務出現連線中斷和延遲增加的問題。設定步驟： 1. 啟用RSTP：在核心交換器上啟用RSTP，確保快速回應拓樸變更。 2. 設定連接埠優先權：設定關鍵連結的連接埠優先權，確保優先被選取。 3. 配置橋接優先級：設定核心交換器的橋接優先級，確保其成為根橋。 4. 監控網路狀態：使用網路監控工具即時追蹤網路狀態，及時發現並解決問題。遇到的問題與解決方案：問題：部分業務連線中斷，延遲增加。解決方案：透過分析日誌和監控數據，發現生成樹配置不當導致部分連結未正確選取。重新配置連接埠優先權和橋接優先權後，網路恢復正常。透過合理配置生成樹協定和相關參數，可以有效應對網路拓撲變化，確保網路的穩定性和效能。

11/01/2024
AI革命徹底重塑了技術格局，但隨之而來的是對網路互聯和運算能力的全新挑戰。在面對如此龐大而複雜的AI工作負載時，我們不得不思考網路如何有效地擴展以支援數十萬個節點的規模？傳統的資料中心任務通常可以在單一伺服器上管理，但AI訓練任務要複雜得多，需要資料在數百甚至數千台裝置之間流動，以實現無縫協同。 Ram Velaga認為，乙太網路是處理AI工作負載的首選方案，它擁有龐大的生態系統，並在資料中心中廣受認可。接下來，我們將重點討論是什麼使乙太網路成為當今AI工作負載的王牌，以及為什麼乙太網路注定會成為連接所有計算的黃金標準。 01. AI奇點是什麼？ AI領域裡，有一個名詞叫做「奇點」。所謂的奇點是指機器智能達到或超越人類智能的水準，達到與人腦智能相容的時刻和狀態。然而，要實現這一目標，目前的單一晶片或多個互連晶片可提供的運算能力遠遠不夠，需要連接數萬、甚至數十萬個節點，建構一個龐大的系統網路。那麼，網路是什麼？乙太網路就是網路。它曾是雲端運算的網絡，現在是AI/ML的網絡，未來將繼續扮演滿足AI/ML需求的大規模網路的重要角色。回顧過去一年，乙太網路領域取得了顯著的進展。乙太網路建立在開放標準的基礎上，擁有極開放的生態系統，支援即插即用和互通性。目前，乙太網路市場吸引了許多不同類型的參與者，2022年乙太網路連接埠的總出貨量達到60億個，這一事實突顯了乙太網路在經濟和規模經濟方面的強大優勢。 02. 乙太網路的50歲今年，是乙太網路問世50週年，這半個世紀以來，它不斷壯大。乙太網路發明者鮑伯·梅特卡夫因為對乙太網路的傑出貢獻而獲得了圖靈獎。在過去的一年裡，許多廠商宣布推出高性能交換機，以滿足AI/ML對頻寬的日益增長需求。 Broadcom宣布推出了多款高效能交換機，隨後Marvell和思科等廠商也推出了50T交換機，推動乙太網路更好地發展。 AI 集群通常有兩個不同的網路。第一種網絡，也是比較傳統的，是所有伺服器的外部或面向外部的「前端」網絡，當它們面向公共互聯網時，需要基於乙太網路和IP協定。 AI 的主要區別在於需要將大量資料輸入集群，因此管道比傳統的網路伺服器大得多。第二種是「後端」網絡，這是一個將AI 叢集資源連接在一起的獨特網路。對於AI 叢集來說，跨運算資源連接到其共享儲存和內存，並快速且沒有延遲偏差地執行這些任務，對於最大化叢集效能至關重要。有人可能會問，前端網路是否基於以太網，而後端網路是否依賴類似InfiniBand的技術？ Ram Velaga認為，其實這就是一個單一的網路──以太網，前端和後端都匯聚成一個乙太網路。目前，全球最大的IT營運商的AI/ML基礎設施都連接在乙太網路上，而這一趨勢將持續下去。因為乙太網路擁有其它任何技術都無法匹敵的生態系統，它提供了故障排除、測試設備、監控設備，同時還支援供應商設備的靈活替換，這使得不同供應商的交換器或網路卡可以無縫協同工作。 03. RDMA有什麼問題？展望未來，我們該考慮什麼？可以看一下大語言模型的成長速度，在2020年，GPT-3具有大約1750億個參數，預計GPT-4將擁有超過1兆個參數。因此，無論是大語言模型還是推薦模型，都需要大量資源來處理模型的下一代和演進。 RDMA是實現從一個運算節點向另一個運算節點高效傳輸記憶體的技術之一。最初，它是針對InfiniBand而建造的。隨著時間的推移，RDMA不斷發展，業內廠商把RDMA移植到傳統乙太網路上，也就是RoCE。目前，RoCE和RDMA技術已經在許多擁有數千個運算節點的大規模環境中成功應用，實現了高效的資料傳輸和通訊。然而，問題出現了。 20年前建置RDMA時，它主要用於連接一個節點到另一個節點，或或從100個節點到200個節點。因為當時，企業客戶甚至是大型石油和天然氣勘探公司購買的HPC集群通常只有256個節點，最多就1000個節點。然而，如今，擁有1萬個節點已經不是什麼稀奇事。人們開始探討更大規模，涉及10萬個節點甚至更多節點的部署。那RDMA有什麼問題呢？ RDMA在設計之初並不是為如此大的規模而建造的。首先，它不具備多路徑支持，這意味著資料只能透過一條路徑從點A傳輸到點B，而流量必須全部在這條路徑上傳輸。這導致了某些鏈路可能被浪費，而另一些鏈路可能被過度使用。 RDMA也包含了「分組傳遞」的概念，即在資料流中，所有資料包必須依序到達。這意味著第一個資料包必須在第二個之後到達，第三個必須在第二個之後到達，以此類推。而RDMA中的一項技術“Go-back-n”，意味著如果在RDMA資料流中某個資料包遺失，即使之後的資料包都已正常傳輸，也要從遺失的資料包開始全部重傳，這種方式非常低效。此外，RDMA的設計是基於無丟包的網絡，使用了DCQCN（資料中心專用擁塞通知）而非TCP/IP協議，這使得網路非常脆弱，需要高度精密的工程處理。通常情況下，售賣系統的公司可能會希望客戶購買從光通訊設備到網路線再到整個系統的所有組件，並收取數倍費用。 04. RDMA現代化過去，RDMA的這些特性發揮了作用，但並不適用於當前技術發展趨勢。 7月，超乙太網路聯盟（UEC，Ultra Ethernet Consortium）誕生了，其目標是實現乙太網路的極高性能、超大規模以及世界上任何互聯都無法媲美的最佳經濟性。目前，已有 200 多家公司、組織和機構表示有興趣加入UEC。 UEC提出了一種解決RDMA問題的構想，稱為「Ultra Ethernet Transport」。他們採取了一系列措施來應對上述問題。總的來說，他們的理念是建立一個高效能的網絡，消除傳統RDMA中的低效率問題，以使其能夠在一個高度穩健的網絡環境中擴展到超過100萬個節點。在超級運算領域，有一點至關重要，那就是資料包的遺失。微軟曾發表一篇論文，指出即使只有0.1%的資料包遺失，也會導致作業完成時間呈指數成長。這是因為必須回到資料包遺失的狀態，然後整個作業必須重新運行，效率非常低。因此，UEC的目標是RDMA的現代化，這是高效能AI訓練的關鍵技術。 UEC 的傳輸協定 UET 引入了資料包級多路徑、按順序訊息完成的無序資料包傳送、高效的錯誤處理和免配置擁塞控制。這將帶來更好的負載平衡、網路利用率以及更快的 AI 作業完成時間。總的來說，在AI/ML領域，不存在一家公司能提供所有GPU，也沒有一家公司能提供所有連網解決方案。實現規模擴展的唯一方法是建立一個由多家供應商提供加速器的生態系統，建立一個開放、基於標準、高效能並擁有最佳整體成本的互聯結構。簡而言之，無論是在昨天、今天還是明天，乙太網路將繼續存在並將繼續塑造AI網路的未來。

10/23/2024