北京2025年12月4日 /美通社/ -- 亞馬遜云科技在2025 re:Invent全球大會上,宣布Amazon EC2 Trainium3 UltraServers(下稱Trn3 UltraServers)現(xiàn)已正式可用,由亞馬遜云科技首款3nm AI芯片驅(qū)動,為不同規(guī)模的企業(yè)提供運行高強度AI訓(xùn)練與推理工作負載的能力,幫助客戶更快更省地訓(xùn)練和部署AI模型。與Trainium2 UltraServers相比,Trn3 UltraServers在AI場景中提供高性能,實現(xiàn)高達4.4倍的計算性能、4倍的能效提升以及近4倍的內(nèi)存帶寬,使AI開發(fā)速度更快、運營成本更低。Trn3 UltraServers可擴展至最多144顆Trainium3芯片,提供高達362 FP8 PFLOPs的性能,延遲降低4倍,可更快速訓(xùn)練更大規(guī)模的模型,并支持大規(guī)模推理場景。包括Anthropic、Karakuri、Metagenomics、Neto.ai、Ricoh與Splashmusic在內(nèi)的客戶已經(jīng)通過Trainium將訓(xùn)練與推理成本降低至原來的50%。值得的一提的是,Amazon Bedrock也已在Trainium3上運行生產(chǎn)級工作負載。
AI模型規(guī)模與復(fù)雜度持續(xù)提升,正在逼近計算和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的極限??蛻粝Ms短訓(xùn)練時間并降低推理延遲(即AI系統(tǒng)接收輸入到生成對應(yīng)輸出的時間)。如今,訓(xùn)練尖端模型所需的基礎(chǔ)設(shè)施投入只有少數(shù)企業(yè)能夠承擔(dān),而大規(guī)模提供 AI 應(yīng)用服務(wù)則需要大量計算資源,成本很容易失控。即使采用當(dāng)前最快的加速實例,僅靠增大集群規(guī)模也難以突破并行化限制,無法顯著縮短訓(xùn)練時間,而實時推理需求則進一步超出單實例架構(gòu)的能力邊界。為幫助客戶突破這些限制,亞馬遜云科技宣布Amazon EC2 Trn3 UltraServers今日起正式可用。Trn3 UltraServers基于全新的3nm制程工藝的Trainium3芯片,使各類規(guī)模的企業(yè)能夠更快訓(xùn)練更大的AI模型,以更低成本服務(wù)更多用戶,讓更多機構(gòu)能夠以更低門檻獲取支撐未來前沿AI項目所需的算力。
Trainium3 UltraServers:為下一代AI工作負載而生
Trn3 UltraServers在單一系統(tǒng)中集成多達144顆Trainium3芯片,計算性能較Trainium2 UltraServers提升高達4.4倍。這使企業(yè)能夠處理過去難以實現(xiàn)或成本過高的AI項目:模型訓(xùn)練速度更快,周期從數(shù)月縮短至數(shù)周;可同時處理更多用戶的推理請求;并進一步縮短產(chǎn)品上市時間,并降低整體運營成本。
使用OpenAI的開源權(quán)重模型GPT-OSS對Trn3 UltraServers進行測試發(fā)現(xiàn),相比Trn2 UltraServers,其單芯片吞吐量提升3倍,響應(yīng)速度快4倍。這意味著企業(yè)在更小的基礎(chǔ)設(shè)施規(guī)模下即可擴展AI應(yīng)用以應(yīng)對峰值需求,直接提升用戶體驗,同時降低單次推理請求的成本。
這些改進源于為AI場景專門設(shè)計的Trainium3芯片。該芯片通過先進的設(shè)計創(chuàng)新、用于加速芯片間數(shù)據(jù)傳輸?shù)膬?yōu)化互連結(jié)構(gòu)以及能夠在處理大型AI模型時消除瓶頸的增強型內(nèi)存系統(tǒng),實現(xiàn)了突破性的性能提升。除了性能增長之外,Trainium3實現(xiàn)顯著的節(jié)能效果,與前幾代相比能效提升40%,在大規(guī)模部署中尤為關(guān)鍵,從而能夠提供更具成本效益的AI基礎(chǔ)設(shè)施,同時降低數(shù)據(jù)中心的整體能耗與環(huán)境影響。
專為規(guī)?;O(shè)計的先進網(wǎng)絡(luò)基礎(chǔ)設(shè)施
亞馬遜云科技將Trn3 UltraServer打造為從芯片架構(gòu)到軟件棧的垂直集成系統(tǒng)。該集成的核心是一套專為消除分布式AI計算中常見通信瓶頸而設(shè)計的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。全新的NeuronSwitch-v1使每臺UltraServer的帶寬提升2倍,而增強型Neuron Fabric網(wǎng)絡(luò)則將芯片間通信延遲降低至不足10微秒。
未來的AI工作負載,包括agent系統(tǒng)、MoE架構(gòu)和強化學(xué)習(xí)應(yīng)用,都需要海量數(shù)據(jù)在處理器之間無縫流動。亞馬遜云科技打造的這一網(wǎng)絡(luò)體系,使過去難以實現(xiàn)的近乎即時響應(yīng)型AI應(yīng)用成為可能,并進一步解鎖全新用例,例如可即時處理并執(zhí)行數(shù)據(jù)的實時決策系統(tǒng),以及響應(yīng)自然、無延遲的流暢對話式AI。
對于有規(guī)?;枨蟮目蛻?,EC2 UltraClusters 3.0可連接數(shù)千臺UltraServer,最多可搭載100萬顆Trainium芯片,是上一代的10倍,從而為訓(xùn)練下一代基礎(chǔ)模型提供所需的基礎(chǔ)設(shè)施。如此規(guī)模讓許多過去無法實現(xiàn)的任務(wù)成為可能,包括在萬億token級數(shù)據(jù)集上訓(xùn)練多模態(tài)模型,或為數(shù)百萬并發(fā)用戶提供實時推理服務(wù)。
客戶已在前沿規(guī)模上獲得顯著成果
客戶已經(jīng)從Trainium中獲得顯著價值。與其他方案相比,Anthropic、Karakuri、Metagenomics、Neto.ai、Ricoh與Splashmusic等企業(yè)通過Trainium將訓(xùn)練成本降低了最多50%。亞馬遜云科技的基礎(chǔ)模型托管服務(wù)Amazon Bedrock目前已在Trainium3上運行生產(chǎn)級工作負載,充分證明該芯片已具備企業(yè)級部署能力。
包括Decart在內(nèi)的先鋒AI企業(yè)正借助Trainium3處理實時生成式視頻等高要求工作負載。Decart是一家專注高效優(yōu)化生成式視頻與圖像模型的AI實驗室,為實時互動體驗提供技術(shù)支持。該公司利用Trainium3實現(xiàn)了幀生成速度提升4倍、成本僅為GPU一半,這使得計算密集型應(yīng)用規(guī)模化落地變得可行,并催生從個性化實時體驗到大規(guī)模模擬在內(nèi)的全新互動內(nèi)容類型。
在Project Rainier項目中,亞馬遜云科技與Anthropic合作,將超過50萬顆Trainium2芯片連接為全球最大AI算力集群,其規(guī)模是訓(xùn)練Anthropic上一代模型所用基礎(chǔ)設(shè)施的5倍。Trainium3在此基礎(chǔ)上進一步擴展UltraCluster架構(gòu),為下一代大規(guī)模AI算力集群和前沿模型提供更高的性能與可擴展性。
展望下一代Trainium
亞馬遜云科技已經(jīng)著手研發(fā)下一代Trainium4,其設(shè)計目標是在各項性能指標上實現(xiàn)顯著提升,包括至少6倍的FP4處理性能、3倍的FP8性能以及4倍的內(nèi)存帶寬,以支撐下一代前沿模型的訓(xùn)練與推理需求。隨著硬件與軟件的持續(xù)優(yōu)化,最終的整體性能提升將遠高于這些芯片參數(shù)本身的提升幅度。
Trainium4在FP8性能上的3倍提升是一次基礎(chǔ)性飛躍,使AI模型的訓(xùn)練速度至少提升3倍,或處理至少3倍的推理請求,并可通過持續(xù)的軟件增強與特定工作負載優(yōu)化獲得更多額外加速。FP8作為行業(yè)標準的精度格式,能夠在現(xiàn)代AI工作負載中平衡模型準確性與計算效率。
為實現(xiàn)更強的擴展能力,Trainium4將支持NVIDIA NVLink Fusion高速芯片互連技術(shù)。通過這一集成,Trainium4、Graviton與Elastic Fabric Adapter(EFA)能夠在通用MGX機架內(nèi)無縫協(xié)作,構(gòu)建兼容GPU與Trainium服務(wù)器的高性價比機架級AI基礎(chǔ)設(shè)施,形成一個靈活且高性能的平臺,為高要求的AI模型訓(xùn)練與推理工作負載進行優(yōu)化。