在线中文AV精品人人草视频|日韩特黄AA片av超碰|国模免费在线视频|国产高清无码三级片|小毛片小电影人人上人人操|春色av无码黄片无码区|很爽很爽的香蕉视频|日本伊人小视频|亚洲AV网站免费|四月婷婷精品视频在线

微軟全新AI超級(jí)工廠Fairwater在亞特蘭大落成

DoNews12月3日消息,據(jù)微軟方面公布,微軟正式發(fā)布位于美國(guó)喬治亞州亞特蘭大的 Azure AI 數(shù)據(jù)中心 Fairwater 站點(diǎn)。

全新的數(shù)據(jù)中心將與威斯康星州的首個(gè) Fairwater 站點(diǎn)、前幾代 AI 超級(jí)計(jì)算機(jī)以及全球 Azure 數(shù)據(jù)中心深度互聯(lián),共同構(gòu)建首個(gè)全球規(guī)模的 AI 超級(jí)工廠 Fairwater 。

重新定義 AI 數(shù)據(jù)中心架構(gòu)

為了滿足激增的 AI 計(jì)算需求,微軟重新定義了 AI 數(shù)據(jù)中心的架構(gòu)設(shè)計(jì)和系統(tǒng)運(yùn)行方式。Fairwater 打破傳統(tǒng)云數(shù)據(jù)中心模式,采用單一扁平網(wǎng)絡(luò)架構(gòu),可以將數(shù)十萬(wàn)顆最新的 NVIDIA GB200、GB300 GPU 組建成一臺(tái)真正意義上的超級(jí)計(jì)算機(jī)。

這些創(chuàng)新源于微軟在數(shù)據(jù)中心與網(wǎng)絡(luò)設(shè)計(jì)上的數(shù)十年積累,以及支撐全球最大規(guī)模 AI 技術(shù)訓(xùn)練任務(wù)的深厚經(jīng)驗(yàn)。

靈活應(yīng)對(duì)多樣化 AI 技術(shù)工作負(fù)載Fairwater 不僅適用于下一代前沿模型訓(xùn)練,還在設(shè)計(jì)之初就考慮到了多場(chǎng)景彈性調(diào)度。模型訓(xùn)練包含預(yù)訓(xùn)練、微調(diào)、強(qiáng)化學(xué)習(xí)、合成數(shù)據(jù)生成等多種不同類(lèi)型的工作負(fù)載。

微軟還為此部署了專(zhuān)用的 AI WAN 廣域網(wǎng)骨干,把每個(gè) Fairwater 站點(diǎn)連成一個(gè)高度彈性的整體,實(shí)現(xiàn)跨站點(diǎn)的動(dòng)態(tài)算力調(diào)度,讓不同任務(wù)都能高效運(yùn)行,最大化整個(gè)系統(tǒng)的 GPU 利用率。

極致算力密度:突破物理極限的 Azure AI 架構(gòu)

現(xiàn)代 AI 技術(shù)基礎(chǔ)設(shè)施的性能正面臨物理定律的挑戰(zhàn),光速延遲正在成為限制加速器、計(jì)算與存儲(chǔ)深度整合的關(guān)鍵因素。Fairwater 的設(shè)計(jì)核心,就是把算力密度做到極致,在機(jī)架內(nèi)部、機(jī)架之間盡可能縮短延遲,從而將整體系統(tǒng)性能推到新的高度。

想要實(shí)現(xiàn)這種算力密度,冷卻技術(shù)是關(guān)鍵。Fairwater 數(shù)據(jù)中心采用全場(chǎng)液冷系統(tǒng),并通過(guò)閉環(huán)循環(huán)設(shè)計(jì) —— 冷卻液在初次注入后會(huì)被持續(xù)循環(huán)使用,不會(huì)蒸發(fā)流失,實(shí)現(xiàn)高效與可持續(xù)。初始注水量?jī)H相當(dāng)于 20 戶家庭一年的用水量,且可持續(xù)使用 6 年以上,僅在水質(zhì)監(jiān)測(cè)異常時(shí)更換。

液冷不僅提升散熱效率,還讓機(jī)架功率達(dá)到約 140kW/機(jī)架,1,360kW/排。先進(jìn)冷卻技術(shù)確保在高負(fù)載下保持穩(wěn)定性能,讓超大規(guī)模訓(xùn)練任務(wù)高效運(yùn)行。

圖為:機(jī)架級(jí)直液冷

為了進(jìn)一步提升算力密度,F(xiàn)airwater 還采用了雙層數(shù)據(jù)中心建筑設(shè)計(jì)。原因很簡(jiǎn)單:因?yàn)?AI 技術(shù)工作負(fù)載對(duì)延遲極度敏感,哪怕是線纜長(zhǎng)度的微小差異,都可能影響集群性能。

在 Fairwater 中,每一塊 GPU 都需要與其他 GPU 互聯(lián)。通過(guò)三維空間布局,雙層設(shè)計(jì)讓機(jī)架分布更緊湊,顯著縮短線纜長(zhǎng)度,從而帶來(lái)更低延遲、更高帶寬、更強(qiáng)可靠性以及更優(yōu)成本控制。

圖為:雙層網(wǎng)絡(luò)架構(gòu)

高可用,低成本供電

為了支撐前所未有的算力需求,F(xiàn)airwater 不僅在網(wǎng)絡(luò)架構(gòu)上創(chuàng)新,還在供電模式上突破傳統(tǒng)。亞特蘭大站點(diǎn)選址基于電網(wǎng)韌性,能以 3×9 成本實(shí)現(xiàn) 4×9 可用性,無(wú)需傳統(tǒng)冗余方案(如現(xiàn)場(chǎng)發(fā)電、UPS、雙路配電),降低客戶成本并加快交付。

同時(shí),微軟與行業(yè)伙伴聯(lián)合開(kāi)發(fā)電力管理解決方案,應(yīng)對(duì)大規(guī)模 AI 技術(shù)任務(wù)帶來(lái)的電網(wǎng)波動(dòng):

軟件層面:在低負(fù)載時(shí)段自動(dòng)引入補(bǔ)充性任務(wù),平滑電力波動(dòng)

硬件層面:讓 GPU 自主控制功率閾值,抑制瞬時(shí)沖擊

現(xiàn)場(chǎng)儲(chǔ)能系統(tǒng):通過(guò)本地儲(chǔ)能吸收波動(dòng),而無(wú)需額外消耗電力

這些方案讓 Fairwater 能在 AI 技術(shù)需求持續(xù)攀升的情況下保持平穩(wěn)運(yùn)行。

尖端加速器與網(wǎng)絡(luò)系統(tǒng)

Fairwater 的強(qiáng)大性能,來(lái)自于專(zhuān)為 AI 技術(shù)打造的服務(wù)器架構(gòu)、先進(jìn)加速器和全新的網(wǎng)絡(luò)系統(tǒng)。

單一扁平網(wǎng)絡(luò):突破傳統(tǒng) Clos 網(wǎng)絡(luò)限制,支持?jǐn)?shù)十萬(wàn) GPU 互聯(lián)

機(jī)架級(jí)互聯(lián):每機(jī)架最多容納 72 塊 Blackwell GPU,通過(guò) NVLink 實(shí)現(xiàn)超低延遲通信

極致算力密度:支持 FP4 等低精度格式,提升 FLOPS 與內(nèi)存效率

帶寬與內(nèi)存:每機(jī)架提供 1.8TB GPU 間帶寬,每塊 GPU 可訪問(wèn) 14TB 共享內(nèi)存

圖為:采用應(yīng)用驅(qū)動(dòng)網(wǎng)絡(luò)技術(shù)的密集型 GPU 機(jī)架

為了讓數(shù)十萬(wàn)塊 GPU 像一臺(tái)超級(jí)計(jì)算機(jī)一樣高效運(yùn)作,F(xiàn)airwater 采用橫向擴(kuò)展網(wǎng)絡(luò)架構(gòu),將機(jī)架擴(kuò)展為 Pod 和集群,實(shí)現(xiàn)最少跳數(shù)、最低延遲的互聯(lián)。

核心技術(shù)亮點(diǎn)

雙層以太網(wǎng)后端架構(gòu):支持超大規(guī)模集群,GPU 間互聯(lián)速率高達(dá) 800Gbps

SONiC 網(wǎng)絡(luò)操作系統(tǒng):微軟自研,避免單一供應(yīng)商鎖定,降低成本,支持通用硬件

網(wǎng)絡(luò)優(yōu)化技術(shù):多層面重構(gòu)性能,實(shí)現(xiàn)擁塞控制、快速重傳和智能負(fù)載均衡,保障超低延遲與高可靠性

行星級(jí)規(guī)模

即便有這么多創(chuàng)新,面對(duì)動(dòng)輒萬(wàn)億參數(shù)的大模型訓(xùn)練,單個(gè)數(shù)據(jù)中心的電力和空間仍難以承載不斷上升的算力需求。為此,微軟打造了一個(gè)專(zhuān)用的 AI WAN 光網(wǎng)絡(luò),將 Fairwater 的縱向擴(kuò)展與橫向擴(kuò)展網(wǎng)絡(luò)進(jìn)一步向外延伸。

依托多年的超大規(guī)?;A(chǔ)設(shè)施經(jīng)驗(yàn),微軟僅在過(guò)去一年內(nèi)就在全美鋪設(shè)了 12 萬(wàn)英里的新光纖,全面增強(qiáng) AI 技術(shù)網(wǎng)絡(luò)的覆蓋與穩(wěn)定性。

憑借這條高性能、高可用的骨干網(wǎng)絡(luò),我們可以把不同世代的超級(jí)計(jì)算機(jī)跨地域聯(lián)成一個(gè)整體——打造真正意義上的 AI 超級(jí)工廠(AI Superfactory)。

開(kāi)發(fā)者可以根據(jù)任務(wù)需求,在單站點(diǎn)內(nèi)部的 scale-up / scale-out 網(wǎng)絡(luò)之間靈活切換,也可以跨站點(diǎn)通過(guò) AI WAN 調(diào)度算力資源。

這與過(guò)去所有流量都必須走同一個(gè)橫向擴(kuò)展網(wǎng)絡(luò)的模式截然不同。

如今,任務(wù)可以基于需求選擇最適合的網(wǎng)絡(luò)路徑,不僅提升效率,也讓整個(gè)基礎(chǔ)設(shè)施更靈活、更高利用率。

下一代 Azure AI 基礎(chǔ)設(shè)施的躍遷

全新的亞特蘭大 Fairwater 站點(diǎn),是 Azure AI 基礎(chǔ)設(shè)施邁出的又一大步,也是微軟多年支撐全球最大規(guī)模 AI 技術(shù)訓(xùn)練經(jīng)驗(yàn)的成果總結(jié)。

它融合了突破性的算力密度設(shè)計(jì)、高效可持續(xù)的能源體系以及世界領(lǐng)先的網(wǎng)絡(luò)架構(gòu),并與全球各地的 Azure AI 數(shù)據(jù)中心深度互聯(lián),共同構(gòu)成首個(gè)全球規(guī)模的 AI 超級(jí)工廠。

對(duì)企業(yè)與開(kāi)發(fā)者而言,這意味著更容易將 AI 技術(shù)融入現(xiàn)有工作流、更快把想法變成現(xiàn)實(shí)、更輕松構(gòu)建出曾經(jīng)難以實(shí)現(xiàn)的創(chuàng)新型 AI 技術(shù)應(yīng)用。

標(biāo)簽: 微軟 Azure AI Fairwater NVIDIA
微軟全新AI超級(jí)工廠Fairwater在亞特蘭大落成
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號(hào)-1