无码不卡黄片一区,日韩AV经典在线,少妇高潮免费观看

DoNews > 商業(yè) > 微軟全新AI超級(jí)工廠Fairwater在亞特蘭大落成

微軟全新AI超級(jí)工廠Fairwater在亞特蘭大落成

楊亮 2025-12-03 09:20:05

508060

分享到

DoNews12月3日消息，據(jù)微軟方面公布，微軟正式發(fā)布位于美國(guó)喬治亞州亞特蘭大的 Azure AI 數(shù)據(jù)中心 Fairwater 站點(diǎn)。

全新的數(shù)據(jù)中心將與威斯康星州的首個(gè) Fairwater 站點(diǎn)、前幾代 AI 超級(jí)計(jì)算機(jī)以及全球 Azure 數(shù)據(jù)中心深度互聯(lián)，共同構(gòu)建首個(gè)全球規(guī)模的 AI 超級(jí)工廠 Fairwater 。

重新定義 AI 數(shù)據(jù)中心架構(gòu)

為了滿足激增的 AI 計(jì)算需求，微軟重新定義了 AI 數(shù)據(jù)中心的架構(gòu)設(shè)計(jì)和系統(tǒng)運(yùn)行方式。Fairwater 打破傳統(tǒng)云數(shù)據(jù)中心模式，采用單一扁平網(wǎng)絡(luò)架構(gòu)，可以將數(shù)十萬(wàn)顆最新的 NVIDIA GB200、GB300 GPU 組建成一臺(tái)真正意義上的超級(jí)計(jì)算機(jī)。

這些創(chuàng)新源于微軟在數(shù)據(jù)中心與網(wǎng)絡(luò)設(shè)計(jì)上的數(shù)十年積累，以及支撐全球最大規(guī)模 AI 技術(shù)訓(xùn)練任務(wù)的深厚經(jīng)驗(yàn)。

靈活應(yīng)對(duì)多樣化 AI 技術(shù)工作負(fù)載Fairwater 不僅適用于下一代前沿模型訓(xùn)練，還在設(shè)計(jì)之初就考慮到了多場(chǎng)景彈性調(diào)度。模型訓(xùn)練包含預(yù)訓(xùn)練、微調(diào)、強(qiáng)化學(xué)習(xí)、合成數(shù)據(jù)生成等多種不同類型的工作負(fù)載。

微軟還為此部署了專用的 AI WAN 廣域網(wǎng)骨干，把每個(gè) Fairwater 站點(diǎn)連成一個(gè)高度彈性的整體，實(shí)現(xiàn)跨站點(diǎn)的動(dòng)態(tài)算力調(diào)度，讓不同任務(wù)都能高效運(yùn)行，最大化整個(gè)系統(tǒng)的 GPU 利用率。

極致算力密度：突破物理極限的 Azure AI 架構(gòu)

現(xiàn)代 AI 技術(shù)基礎(chǔ)設(shè)施的性能正面臨物理定律的挑戰(zhàn)，光速延遲正在成為限制加速器、計(jì)算與存儲(chǔ)深度整合的關(guān)鍵因素。Fairwater 的設(shè)計(jì)核心，就是把算力密度做到極致，在機(jī)架內(nèi)部、機(jī)架之間盡可能縮短延遲，從而將整體系統(tǒng)性能推到新的高度。

想要實(shí)現(xiàn)這種算力密度，冷卻技術(shù)是關(guān)鍵。Fairwater 數(shù)據(jù)中心采用全場(chǎng)液冷系統(tǒng)，并通過(guò)閉環(huán)循環(huán)設(shè)計(jì) —— 冷卻液在初次注入后會(huì)被持續(xù)循環(huán)使用，不會(huì)蒸發(fā)流失，實(shí)現(xiàn)高效與可持續(xù)。初始注水量?jī)H相當(dāng)于 20 戶家庭一年的用水量，且可持續(xù)使用 6 年以上，僅在水質(zhì)監(jiān)測(cè)異常時(shí)更換。

液冷不僅提升散熱效率，還讓機(jī)架功率達(dá)到約 140kW/機(jī)架，1,360kW/排。先進(jìn)冷卻技術(shù)確保在高負(fù)載下保持穩(wěn)定性能，讓超大規(guī)模訓(xùn)練任務(wù)高效運(yùn)行。

圖為：機(jī)架級(jí)直液冷

為了進(jìn)一步提升算力密度，F(xiàn)airwater 還采用了雙層數(shù)據(jù)中心建筑設(shè)計(jì)。原因很簡(jiǎn)單：因?yàn)?AI 技術(shù)工作負(fù)載對(duì)延遲極度敏感，哪怕是線纜長(zhǎng)度的微小差異，都可能影響集群性能。

在 Fairwater 中，每一塊 GPU 都需要與其他 GPU 互聯(lián)。通過(guò)三維空間布局，雙層設(shè)計(jì)讓機(jī)架分布更緊湊，顯著縮短線纜長(zhǎng)度，從而帶來(lái)更低延遲、更高帶寬、更強(qiáng)可靠性以及更優(yōu)成本控制。

圖為：雙層網(wǎng)絡(luò)架構(gòu)

高可用，低成本供電

為了支撐前所未有的算力需求，F(xiàn)airwater 不僅在網(wǎng)絡(luò)架構(gòu)上創(chuàng)新，還在供電模式上突破傳統(tǒng)。亞特蘭大站點(diǎn)選址基于電網(wǎng)韌性，能以 3×9 成本實(shí)現(xiàn) 4×9 可用性，無(wú)需傳統(tǒng)冗余方案（如現(xiàn)場(chǎng)發(fā)電、UPS、雙路配電），降低客戶成本并加快交付。

同時(shí)，微軟與行業(yè)伙伴聯(lián)合開(kāi)發(fā)電力管理解決方案，應(yīng)對(duì)大規(guī)模 AI 技術(shù)任務(wù)帶來(lái)的電網(wǎng)波動(dòng)：

軟件層面：在低負(fù)載時(shí)段自動(dòng)引入補(bǔ)充性任務(wù)，平滑電力波動(dòng)

硬件層面：讓 GPU 自主控制功率閾值，抑制瞬時(shí)沖擊

現(xiàn)場(chǎng)儲(chǔ)能系統(tǒng)：通過(guò)本地儲(chǔ)能吸收波動(dòng)，而無(wú)需額外消耗電力

這些方案讓 Fairwater 能在 AI 技術(shù)需求持續(xù)攀升的情況下保持平穩(wěn)運(yùn)行。

尖端加速器與網(wǎng)絡(luò)系統(tǒng)

Fairwater 的強(qiáng)大性能，來(lái)自于專為 AI 技術(shù)打造的服務(wù)器架構(gòu)、先進(jìn)加速器和全新的網(wǎng)絡(luò)系統(tǒng)。

單一扁平網(wǎng)絡(luò)：突破傳統(tǒng) Clos 網(wǎng)絡(luò)限制，支持?jǐn)?shù)十萬(wàn) GPU 互聯(lián)

機(jī)架級(jí)互聯(lián)：每機(jī)架最多容納 72 塊 Blackwell GPU，通過(guò) NVLink 實(shí)現(xiàn)超低延遲通信

極致算力密度：支持 FP4 等低精度格式，提升 FLOPS 與內(nèi)存效率

帶寬與內(nèi)存：每機(jī)架提供 1.8TB GPU 間帶寬，每塊 GPU 可訪問(wèn) 14TB 共享內(nèi)存

圖為：采用應(yīng)用驅(qū)動(dòng)網(wǎng)絡(luò)技術(shù)的密集型 GPU 機(jī)架

為了讓數(shù)十萬(wàn)塊 GPU 像一臺(tái)超級(jí)計(jì)算機(jī)一樣高效運(yùn)作，F(xiàn)airwater 采用橫向擴(kuò)展網(wǎng)絡(luò)架構(gòu)，將機(jī)架擴(kuò)展為 Pod 和集群，實(shí)現(xiàn)最少跳數(shù)、最低延遲的互聯(lián)。

核心技術(shù)亮點(diǎn)

雙層以太網(wǎng)后端架構(gòu)：支持超大規(guī)模集群，GPU 間互聯(lián)速率高達(dá) 800Gbps

SONiC 網(wǎng)絡(luò)操作系統(tǒng)：微軟自研，避免單一供應(yīng)商鎖定，降低成本，支持通用硬件

網(wǎng)絡(luò)優(yōu)化技術(shù)：多層面重構(gòu)性能，實(shí)現(xiàn)擁塞控制、快速重傳和智能負(fù)載均衡，保障超低延遲與高可靠性

行星級(jí)規(guī)模

即便有這么多創(chuàng)新，面對(duì)動(dòng)輒萬(wàn)億參數(shù)的大模型訓(xùn)練，單個(gè)數(shù)據(jù)中心的電力和空間仍難以承載不斷上升的算力需求。為此，微軟打造了一個(gè)專用的 AI WAN 光網(wǎng)絡(luò)，將 Fairwater 的縱向擴(kuò)展與橫向擴(kuò)展網(wǎng)絡(luò)進(jìn)一步向外延伸。

依托多年的超大規(guī)模基礎(chǔ)設(shè)施經(jīng)驗(yàn)，微軟僅在過(guò)去一年內(nèi)就在全美鋪設(shè)了 12 萬(wàn)英里的新光纖，全面增強(qiáng) AI 技術(shù)網(wǎng)絡(luò)的覆蓋與穩(wěn)定性。

憑借這條高性能、高可用的骨干網(wǎng)絡(luò)，我們可以把不同世代的超級(jí)計(jì)算機(jī)跨地域聯(lián)成一個(gè)整體——打造真正意義上的 AI 超級(jí)工廠（AI Superfactory）。

開(kāi)發(fā)者可以根據(jù)任務(wù)需求，在單站點(diǎn)內(nèi)部的 scale-up / scale-out 網(wǎng)絡(luò)之間靈活切換，也可以跨站點(diǎn)通過(guò) AI WAN 調(diào)度算力資源。

這與過(guò)去所有流量都必須走同一個(gè)橫向擴(kuò)展網(wǎng)絡(luò)的模式截然不同。

如今，任務(wù)可以基于需求選擇最適合的網(wǎng)絡(luò)路徑，不僅提升效率，也讓整個(gè)基礎(chǔ)設(shè)施更靈活、更高利用率。

下一代 Azure AI 基礎(chǔ)設(shè)施的躍遷

全新的亞特蘭大 Fairwater 站點(diǎn)，是 Azure AI 基礎(chǔ)設(shè)施邁出的又一大步，也是微軟多年支撐全球最大規(guī)模 AI 技術(shù)訓(xùn)練經(jīng)驗(yàn)的成果總結(jié)。

它融合了突破性的算力密度設(shè)計(jì)、高效可持續(xù)的能源體系以及世界領(lǐng)先的網(wǎng)絡(luò)架構(gòu)，并與全球各地的 Azure AI 數(shù)據(jù)中心深度互聯(lián)，共同構(gòu)成首個(gè)全球規(guī)模的 AI 超級(jí)工廠。

對(duì)企業(yè)與開(kāi)發(fā)者而言，這意味著更容易將 AI 技術(shù)融入現(xiàn)有工作流、更快把想法變成現(xiàn)實(shí)、更輕松構(gòu)建出曾經(jīng)難以實(shí)現(xiàn)的創(chuàng)新型 AI 技術(shù)應(yīng)用。