经典老熟女ass,一本色道久久综合亚洲精品蜜桃冫

文章來源：申耀的科技觀察

從2023年的ChatGPT，到2024年的Sora，AI大模型正以不可思議的發(fā)展速度顛覆著業(yè)界的認(rèn)知，但AI大模型的火熱登場(chǎng)，也進(jìn)一步對(duì)智算中心提出了更高的要求。

可以看到，當(dāng)前訓(xùn)練數(shù)據(jù)集的規(guī)模正從TB級(jí)別上升至PB乃至EB級(jí)別，AI大模型的參數(shù)量也從千億級(jí)別向萬億甚至十萬億規(guī)模邁進(jìn)。以 GPT3.5 為例，其參數(shù)規(guī)模達(dá)1750億，作為訓(xùn)練數(shù)據(jù)集的互聯(lián)網(wǎng)文本量也超過45TB，其訓(xùn)練過程依賴于專門建設(shè)的AI智算中心，以及由1萬顆GPU組成的高性能網(wǎng)絡(luò)集群，總計(jì)算力消耗約為3640 PF-days（即每秒一千萬億次計(jì)算，運(yùn)行 3640 天）。

如此龐大的訓(xùn)練任務(wù)通常無法由單個(gè)服務(wù)器完成，往往需要大量服務(wù)器作為節(jié)點(diǎn)，并通過高效的組網(wǎng)方式形成大規(guī)模的AI算力集群（Scale Out），由此才能為AI大模型訓(xùn)練提供強(qiáng)有力的支持，而這也意味著AI集群中的網(wǎng)絡(luò)互聯(lián)和交換必須具備高性能、低功耗、低時(shí)延以及高可靠性等能力，否則就會(huì)影響AI集群訓(xùn)練的質(zhì)量和速度。

在此背景下，MEMS-OXC“重出江湖”，相比傳統(tǒng)的電交換技術(shù)，其以高帶寬、低延遲和低能耗的優(yōu)勢(shì)，一時(shí)間引發(fā)了業(yè)界的高度關(guān)注，特別是隨著谷歌引入OXC光交換機(jī)提升AI集群性能，更使得MEMS-OXC在市場(chǎng)中成為了廣泛討論的熱點(diǎn)話題。

但正所謂“透過現(xiàn)象看本質(zhì)”，在當(dāng)前的智算中心應(yīng)用場(chǎng)景中，MEMS-OXC和自動(dòng)配線架并無本質(zhì)區(qū)別，在未來很長(zhǎng)一段時(shí)間內(nèi)，MEMS-OXC都很難取代傳統(tǒng)的電交換機(jī)，或者說難以“顛覆”傳統(tǒng)的組網(wǎng)架構(gòu)和組網(wǎng)模式，其規(guī)�；涞厝匀焕щy重重。

MEMS-OXC爆火背后的冷思考

毫無疑問，基于電交換機(jī)的組網(wǎng)模式在數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)中扮演著至關(guān)重要的角色，其中以“Spine-Leaf”為代表的大二層組網(wǎng)模式，因其高效、可靠和易于擴(kuò)展的特性，贏得了市場(chǎng)的一致的認(rèn)可，這種組網(wǎng)模式的核心在于其無阻塞的交換架構(gòu)，通過兩層設(shè)備（Spine和Leaf）提供高效、可靠的連接，不僅能夠滿足大規(guī)模組網(wǎng)能力下的彈性擴(kuò)縮、高效轉(zhuǎn)發(fā)和高可靠性等需求，還能通過跨設(shè)備鏈路聚合技術(shù)和等價(jià)多路徑（ECMP）等方式，實(shí)現(xiàn)多路徑轉(zhuǎn)發(fā)和鏈路快速切換，進(jìn)一步提升整體網(wǎng)絡(luò)的穩(wěn)定性和性能。

但隨著AI技術(shù)的不斷發(fā)展，尤其是AI大模型訓(xùn)練對(duì)算卡的需求也在持續(xù)增長(zhǎng)。當(dāng)這種需求攀升十萬卡乃至更大規(guī)模擴(kuò)展時(shí)，傳統(tǒng)的兩層組網(wǎng)模式開始面臨挑戰(zhàn)，三層組網(wǎng)模式被廣泛引入，通過在Spine和Leaf層增加Core層，可以更好優(yōu)化網(wǎng)絡(luò)架構(gòu)，最大化提升網(wǎng)絡(luò)性能和擴(kuò)展性。

當(dāng)前，由于Spine層和Core層之間需要通過光模塊互聯(lián)，電交換機(jī)和光模塊數(shù)量的增加則會(huì)帶來整體能耗的上升，此時(shí)如果Core層部署OXC光交換機(jī)實(shí)現(xiàn)Spine間互聯(lián)，則能夠一定程度上降低能耗，并提升系統(tǒng)的可用性。

也正因此，MEMS OXC“重出江湖”，其全稱是“Optical Cross-Connect”，即指光交叉連接設(shè)備。以最典型的MEMS OXC為例：其內(nèi)置兩個(gè)微鏡陣列，陣列A通過調(diào)整轉(zhuǎn)角將入射信號(hào)偏轉(zhuǎn)到陣列B對(duì)應(yīng)的微鏡單元，將光從入端口映射到出端口，從而實(shí)現(xiàn)兩條路徑之間的光信號(hào)交換。

由于光交換機(jī)負(fù)責(zé)在光纖間建立和斷開連接，相較于傳統(tǒng)的電交換機(jī)，高性能的光交換機(jī)能夠?qū)崿F(xiàn)更快的切換速度，對(duì)于滿足智算中心中的動(dòng)態(tài)流量需求可以說起到了較好的作用。

不過，如果我們“追根溯源”，其實(shí)可以發(fā)現(xiàn)OXC技術(shù)并不是一項(xiàng)“橫空出世”的技術(shù)，早在2000年代初期，隨著互聯(lián)網(wǎng)流量的快速增長(zhǎng)，研究人員其實(shí)就開始探索如何利用光網(wǎng)絡(luò)的高帶寬優(yōu)勢(shì)來提升數(shù)據(jù)中心和骨干網(wǎng)絡(luò)的性能；2010年，SIGCOMM上刊登了《Helios：A Hybrid Electrical/Optical Switch Architecture for Modular Data Centers》的技術(shù)論文，進(jìn)一步探索了光電混合架構(gòu)的技術(shù)可行性；此后雖然OXC技術(shù)也不斷有新的技術(shù)研究進(jìn)展，但其商用化進(jìn)程始終非常緩慢。

“轉(zhuǎn)機(jī)”出現(xiàn)在2022年之后，隨著AI大模型的出現(xiàn)，當(dāng)年谷歌發(fā)布了OXC在云網(wǎng)絡(luò)和自研TPU集群應(yīng)用的技術(shù)論文，隨后其在超大規(guī)模數(shù)據(jù)中心和人工智能計(jì)算中批量部署了OXC光交換機(jī)；2023年，NVIDIA也先后在HOT Interconnects和光網(wǎng)絡(luò)與通信研究會(huì)及博覽會(huì)（OFC）學(xué)術(shù)會(huì)議上分享了其對(duì)光電融合組網(wǎng)的思考，進(jìn)一步推動(dòng)了MEMS OXC的發(fā)展。

但MEMS OXC真的能取代電交換機(jī)在智算中心場(chǎng)景中的主流地位嗎？如果我們深入分析之后，可以發(fā)現(xiàn)OXC技術(shù)仍然面臨諸多技術(shù)瓶頸，相比電交換技術(shù)，其在穩(wěn)定性、低時(shí)延、可用度等方面依然存在諸多的挑戰(zhàn)，尤其是在具體的實(shí)踐中，OXC技術(shù)的主要能力主要體現(xiàn)在靈活配線方面，而這與當(dāng)下廣泛使用的自動(dòng)配線架并無本質(zhì)區(qū)別，電交換技術(shù)無論是在規(guī)模、插損、功耗乃至成本方面均優(yōu)于OXC技術(shù)。

揭開OXC技術(shù)的“三大短板”

站在當(dāng)下看未來，事實(shí)上當(dāng)前光交換機(jī)或者說MEMS OXC相比傳統(tǒng)的電交換機(jī)，在技術(shù)上存在著明顯的“三大短板”，其要大規(guī)模在智算網(wǎng)絡(luò)場(chǎng)景中實(shí)現(xiàn)商用化落地，仍然面臨著重重挑戰(zhàn)，具體而言：

首先，從組網(wǎng)模式看，當(dāng)下在AI集群組網(wǎng)方案中，通常2層組網(wǎng)不需要OXC技術(shù)，而三層無收斂組網(wǎng)，CLOS性能最佳；即使采用收斂組網(wǎng)，CLOS同樣是最佳選擇。

CLOS 典型物理組網(wǎng)

事實(shí)上，2層組網(wǎng)方式是應(yīng)用實(shí)踐較早、較普遍的網(wǎng)絡(luò)架構(gòu)，現(xiàn)如今依然是很多行業(yè)客戶的首選。在2層組網(wǎng)架構(gòu)中，整網(wǎng)設(shè)備只有兩種角色，這種架構(gòu)的優(yōu)點(diǎn)是數(shù)據(jù)轉(zhuǎn)發(fā)路徑短，跨“Leaf”一跳可達(dá)，路徑和時(shí)延具有很強(qiáng)的一致性，加上統(tǒng)一的接入方式也給上線部署和水平擴(kuò)展帶來了很大的便利條件。也正因此，當(dāng)AI集群在4萬卡以下且采用了2層組網(wǎng)的模式，MEMS OXC也就沒有了“用武之地”。

而當(dāng)AI集群超過4萬卡，當(dāng)前業(yè)界主要有兩種組網(wǎng)方式，其中一種是三層無收斂組網(wǎng)方式，這種組網(wǎng)架構(gòu)通常采用1:1無收斂設(shè)計(jì)，可以通過擴(kuò)展網(wǎng)絡(luò)層次提升接入的AI集群節(jié)點(diǎn)數(shù)量，不僅性能好、業(yè)務(wù)適應(yīng)性好，同時(shí)也可以大幅提升網(wǎng)絡(luò)的擴(kuò)展能力。不僅如此，以Pod為單位進(jìn)行業(yè)務(wù)部署，在適配多種業(yè)務(wù)需求、提供差異化服務(wù)等方面，三層無收斂組網(wǎng)方式也更具靈活性；另外一種是三層組網(wǎng)如采用收斂組網(wǎng)方式，此時(shí)跨Pod之間可引入OXC技術(shù)實(shí)現(xiàn)組網(wǎng)，雖然其提升了網(wǎng)絡(luò)的效率和可靠性，但當(dāng)下MEMS OXC的投資成本也比較高昂，而電交換機(jī)仍然在成本、性能、運(yùn)維等方面具有更多的優(yōu)勢(shì)，因此MEMS OXC也無法顯示出更高的價(jià)值。

其次，從組網(wǎng)距離看，2KM組網(wǎng)半徑，如用MEMS OXC互連需要采用LR光模塊，極限情況還需定制LR光模塊，以滿足組網(wǎng)距離要求，而這就需要克服OXC中常見的高插損難題。

高插損是MEMS OXC落地中難以回避的問題。通常情況下，在萬卡集群的互聯(lián)中中，如果采用電交換機(jī)間，其互聯(lián)一般使用2km FR光模塊即可，而OXC為彌補(bǔ)高插損難題則需使用更長(zhǎng)距的光模塊（LR），否則可能導(dǎo)致鏈路信號(hào)不穩(wěn)定，引發(fā)訓(xùn)練中斷。按目前業(yè)界最低1.5dB的差損計(jì)算，設(shè)備間互聯(lián)也要使用10km LR定制光模塊，由此才能夠提供相對(duì)較長(zhǎng)的傳輸距離，適應(yīng)OXC設(shè)備之間的連接需求。但由此新的難題也就產(chǎn)生了，定制的LR光模塊，不僅成本通常較高，交付時(shí)間也相對(duì)較長(zhǎng)，因此MEMS OXC所帶來的新技術(shù)特性，在LR光模塊所面臨的高插損難題上，同樣并沒有明顯的優(yōu)勢(shì)。

最后，從組網(wǎng)能力看，MEMS OXC當(dāng)前不僅難以滿足AI大規(guī)模訓(xùn)練對(duì)穩(wěn)定性和低時(shí)延的要求，同時(shí)OXC技術(shù)也不改善網(wǎng)絡(luò)的可用度，即使采用“雙歸組網(wǎng)”方式，雖然能在一定程度上解決網(wǎng)絡(luò)引起的斷訓(xùn)問題，但依然不能解決接入故障后的性能降級(jí)問題。

其中，在穩(wěn)定性方面，AI大模型訓(xùn)練環(huán)節(jié)，是整個(gè)大模型落地的重中之重，時(shí)間周期長(zhǎng)、資源消耗大，同時(shí)“斷訓(xùn)”也會(huì)直接影響模型的任務(wù)表現(xiàn)，因而對(duì)網(wǎng)絡(luò)系統(tǒng)的考驗(yàn)也最大。但是OXC技術(shù)采用機(jī)械控制方式，同一時(shí)間只能完成一組端口間點(diǎn)對(duì)點(diǎn)轉(zhuǎn)發(fā)，無法有效支撐多組流量并行轉(zhuǎn)發(fā)的需求，形成性能瓶頸。與此同時(shí)，當(dāng)MEMS OXC替換電交換機(jī)之后，原來標(biāo)準(zhǔn)的組網(wǎng)架構(gòu)同樣也會(huì)發(fā)生變化，導(dǎo)致路由協(xié)議、擁塞調(diào)度、負(fù)載均衡等策略均需要重新調(diào)整，增加了AI集群系統(tǒng)的“不確定性”，可能導(dǎo)致訓(xùn)練任務(wù)中斷。

在低時(shí)延方面，MEMS OXC的交換時(shí)延通常在10毫秒以上，與電交換機(jī)的百納秒時(shí)延相比，也高出了五個(gè)量級(jí)，這對(duì)于要求更低時(shí)延的AI訓(xùn)練任務(wù)來說，也是一個(gè)難以接受的“短板”，再加上由于整網(wǎng)存在端口斷開和重新連接的情況，光模塊、電交換機(jī)側(cè)需要重新協(xié)商和路由收斂，又進(jìn)一步延長(zhǎng)了整網(wǎng)的切換和連接時(shí)間，同樣也使得OXC難以滿足AI大規(guī)模訓(xùn)練對(duì)低時(shí)延的嚴(yán)格要求。

在可用度方面，“雙歸組網(wǎng)”方式能夠更好的解決由網(wǎng)絡(luò)節(jié)點(diǎn)故障引起的中斷問題。但數(shù)據(jù)也顯示，基于MEMS OXC并采用“雙歸組網(wǎng)”方式，其單鏈路故障仍會(huì)帶來約6%的性能損失，如果按10K/100K/512K集群光模塊雙歸測(cè)算，則整個(gè)集群分別也有5%、40%以及91%的時(shí)間存在單接入鏈路場(chǎng)景，因此MEMS OXC在十萬卡以上的故障中，所帶來的性能降級(jí)運(yùn)行時(shí)間也不容忽視。

智算場(chǎng)景中電交換仍“獨(dú)占鰲頭”

“第一性原理”是古希臘哲學(xué)家亞里士多德提出來的哲學(xué)術(shù)語，它的本意是：每個(gè)系統(tǒng)中都存在一個(gè)最基本的命題，它不能被違背。如果從企業(yè)需求的視角來看，“第一性原理”也代表著要回歸業(yè)務(wù)的本源和本質(zhì)，即技術(shù)無論如何“爆火”，客戶拿到手的技術(shù)都應(yīng)該是最為簡(jiǎn)單和成熟的結(jié)果。

從這個(gè)角度來說，在AI大規(guī)模訓(xùn)練場(chǎng)景中，AI集群規(guī)模越大，網(wǎng)絡(luò)的復(fù)雜度也會(huì)越高，此時(shí)選擇成熟可靠的方案且具備成本效益顯著的電交換技術(shù)，才能真正化解當(dāng)下網(wǎng)絡(luò)面臨的難題，我們可以從下面三個(gè)維度做進(jìn)一步的觀察。

一是，從市場(chǎng)規(guī)�？�，根據(jù)LightCounting預(yù)測(cè)，2029年OXC的全球市場(chǎng)空間約為5億美元，其中大部分是谷歌OXC交換機(jī)所帶來的市場(chǎng)增量，其產(chǎn)業(yè)規(guī)模僅為電交換的20分之一。因此，OXC技術(shù)仍然屬于“小眾”或者說“新興”的技術(shù)，特別是在投資高昂的智算中心建設(shè)中，用戶需要謹(jǐn)慎評(píng)估OXC技術(shù)的適用性，以避免因缺乏深入了解而成為“小白”。

二是，從落地情況看，當(dāng)下很多投產(chǎn)的超大規(guī)模數(shù)據(jù)中心中，依然是以電交換機(jī)以及傳統(tǒng)的組網(wǎng)方式為主。比如在國(guó)內(nèi)，百度AI高性能網(wǎng)絡(luò)AIPod就采用了 3 層無收斂的 CLOS 組網(wǎng)模式，其整個(gè)AI訓(xùn)練集群管理著約400臺(tái)交換機(jī)、3000張網(wǎng)卡、10000根線纜和20000個(gè)光模塊，而字節(jié)挑動(dòng)的Megascale集群網(wǎng)絡(luò)則包含10KGPU，通過一個(gè)三層類CLOS網(wǎng)絡(luò)實(shí)現(xiàn)連接；在海外，Meta也基于RoCE搭建了一個(gè)由24K個(gè)GPU組成的AI集群網(wǎng)絡(luò)，同樣也通過一個(gè)三層CLOS網(wǎng)絡(luò)實(shí)現(xiàn)連接，據(jù)此也不難看出，當(dāng)下以電交換機(jī)以及傳統(tǒng)的組網(wǎng)方式構(gòu)建智算中心網(wǎng)絡(luò)，歷經(jīng)了多年的市場(chǎng)實(shí)踐和考驗(yàn)，證明了其依然是行業(yè)用戶主流的選擇“共識(shí)”。

三是，從技術(shù)發(fā)展看，目前25.6Tbps的電交換機(jī)芯片早已大規(guī)模部署在國(guó)內(nèi)外互聯(lián)網(wǎng)或云計(jì)算數(shù)據(jù)中心，其能夠?qū)崿F(xiàn)兩級(jí)CLOS架構(gòu)384臺(tái)交換機(jī)即可支持32K個(gè)CPU的部署。更為關(guān)鍵的是，電交換機(jī)的技術(shù)仍在進(jìn)化中，其中在硬件方面，隨著電交換機(jī)芯片的加速迭代，Tomahawk5的速率已高達(dá)51.2T，其單芯片支持64端口800G或128端口400G，能確保三層組網(wǎng)支撐50萬卡集群，而預(yù)計(jì)Tomahawk6發(fā)布后可支撐百萬卡集群門檻。

而在軟件方面，為了解決AI參數(shù)面網(wǎng)絡(luò)負(fù)載不均衡等問題，業(yè)界各個(gè)廠商也都在負(fù)載均衡算法這個(gè)方向加碼創(chuàng)新，方案也呈現(xiàn)“百花齊放”的狀態(tài)�？梢灶A(yù)期的是，隨著電交換機(jī)的持續(xù)的技術(shù)迭代，都會(huì)有助于增強(qiáng)智算中心網(wǎng)絡(luò)的先進(jìn)性和可靠性，進(jìn)一步提升用戶的投資回報(bào)率。

客觀地說，用戶的眼睛始終是雪亮的，MEMS OXC雖然看起來很美好，但在智算中心場(chǎng)景中，實(shí)踐已證明了OXC技術(shù)并非未來的技術(shù)方向和演進(jìn)趨勢(shì)，而基于電交換技術(shù)和傳統(tǒng)組網(wǎng)方案仍然在市場(chǎng)中占據(jù)著主導(dǎo)地位，且優(yōu)勢(shì)盡顯。也正因此，對(duì)于當(dāng)下眾多的客戶而言，MEMS OXC越是爆火，越是需要更多的冷思考，而投資成熟且可靠的電交換技術(shù)，也必然是建設(shè)智算中心網(wǎng)絡(luò)更為穩(wěn)妥和明智的選擇。

智算中心網(wǎng)絡(luò)建設(shè)“冷思考”：OXC并非未來技術(shù)方向，落地仍需跨越三座大山

智算中心網(wǎng)絡(luò)建設(shè)“冷思考”：OXC并非未來技術(shù)方向，落地仍需跨越三座大山