UALink 1.0標準詳解

UALink 1.0標準詳解
UALink 1.0是用於加速器間通訊的開放產業標準,旨在滿足AI和HPC應用對高頻寬、低延遲互連的需求。以下是其核心要點:

技術特點

高速傳輸:支援每通道200GT/s資料速率,實際訊號速率達212.5GT/s,四通道配置下雙向頻寬可達800Gbps。
靈活擴展:可配置為單通道(X1)、雙通道(X2)或四通道(X4),適應不同規模的加速器集群。
低延遲最佳化:透過碼字交織等技術降低FEC延遲,連結往返延遲<1μs。
相容性:基於乙太網路實體層(802.3),重複使用現有基礎設施,降低部署成本。
系統架構

Pod設計:支援連接最多1024個加速器,形成縱向擴展的運算單元簇(Pod)。
虛擬Pod:可透過交換器連接埠分區實現多租戶隔離,每個Pod內加速器有唯一ID。
管理機制:由Pod控制器統一管理,支援REST API、遙測和故障隔離等功能。
協定堆疊

物理層:基於802.3乙太網路PHY,支援200G/400G/800G速率,採用64b/66b編碼。
資料鏈路層:將64位元組Flit打包為640位元組Flit,支援CRC校驗和鏈路級重傳。
事務層:實現位址壓縮和串流傳輸,協定效率可達95%以上。
協定層:提供直接讀/寫/原子操作語意,保持記憶體一致性。
安全性

UALinkSec:支援端對端加密和認證,保護資料機密性和完整性,防範中間人攻擊和租用戶資料外洩。
可信任執行環境(TEE):由租用戶控制的TEE(如Intel TDX、AMD SEV)負責安全配置。
生態與應用

聯盟支持:由阿里巴巴、AMD、蘋果、AWS等70多家企業共同推動,目標打破NVIDIA NVLink的壟斷。
應用場景:適用於AI訓練和推理、HPC等場景,支援大規模加速器集群的建構。
UALink 1.0透過開放標準和技術創新,為資料中心加速器互連提供了高效能、低成本的解決方案,可望重塑AI和HPC領域的互連生態。


Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *