原文標題:《Prime Intellect: Making Magic to Scale AI Training》
原文作者:Teng Yan
原文編譯:思考怪怪
譯者註:隨著英偉達市值在年中突破3 兆美元,GPU 算力租約成為2024 年加密AI 領域最熱門的賽道。然而,大多數專案僅停留在算力資源聚合階段,未能解決去中心化 AI 訓練的核心難題——跨分散式 GPU 叢集的模型訓練。新銳專案 Prime Intellect 正試圖打破這套頸。加密研究員 Teng Yan 撰文探討了 Prime Intellect 的創新方案,以及它如何有望引領去中心化 AI 訓練的未來。
大多數 GPU 市場平平無奇,往往只是重複相同的產品體驗,僅透過增加一個代幣來補貼成本。
但去中心化 AI 訓練則是一個全新的遊戲,具有變革性潛力。 Prime Intellect 正在為大規模去中心化 AI 訓練建立關鍵基礎設施。
以下是他們超越普通DePIN 專案的原因:
Prime Intellect 的宏偉藍圖包含四個部分:
1 . 整合全球算力資源
2. 發展協作模型開發的分散式訓練架構
3. 協同訓練開源AI 模式
4. 實現AI 模式的集體擁有權
7 月1 日,他們透過推出GPU 市場啟動了第一階段。該市場整合了主要中心化和去中心化 GPU 供應商的算力資源,包括 Akash Network、io.net、Vast.ai、Lambda Cloud 等。目標是透過聚合供應商資源並提供便利工具,為用戶提供最優惠的租賃價格。使用者可以直接使用 Prime Intellect 平台,無需再逐一存取 Akash 或 io.net 進行比價。
他們的線上測試平台直覺且易於使用。用戶幾分鐘內就能啟動集群,無需 KYC。你可以選擇希望租賃 GPU 的位置和網路的安全等級(如安全雲或社群雲),此外還有一個「最低價」選項。
從頂級 H100 到 RTX3000 和 4000 系列,他們提供多種 GPU 選擇。目前叢集規模上限為 8 個 GPU,Prime Intellect 正努力將其擴大到 16-128 個。
他們藍圖的第二部分-發展分佈式AI 訓練框架,最令人矚目。
目前的情況是:訓練大型基礎 AI 模型通常需要自建資料中心。這涉及高速網路、客製化資料儲存、隱私保護和效率優化,這些僅靠租用多個 GPU 難以實現。所以微軟、谷歌和 OpenAI 等巨頭主導了這一領域毫不奇怪,小型玩家缺乏必要的資源。
而 Prime Intellect 將實現跨多個分散式 GPU 叢集的模型訓練。
去中心化訓練面臨多重挑戰:
· 優化全球節點間的通訊延遲和頻寬
· 適應這些網路中不同類型的GPU
· 容錯能力:訓練過程必須能適應GPU 集群可用性的變化,因為這些集群可能會隨時加入或退出
這需要將前沿研究轉化為實際生產系統:
· 分散式低通訊訓練(DiLoCo):一種在連接不良的設備上進行資料並行訓練的方法,每500 步同步一次梯度,而非每步同步。
· Prime Intellect 最近開源了支援全球分散式 GPU 協作模型開發的框架,任何人都可以使用該程式碼。
· 他們重現了Google DeepMind 的 DiLoCo 實驗,在橫跨 3 國的情況下訓練模型,計算利用率達 90-95%。他們還將規模擴大至原始工作的 3 倍,展示了其在十億參數模型上的有效性。
如果Prime Intellect 能解決這些問題,將極大影響模型訓練方式和資源利用效率。
Prime Intellect 正在開發的最後一項功能是一個協議,用於獎勵貢獻算力、程式碼和資金的參與者,並實現AI 模型的集體治理。這契合去中心化 AI 理念,鼓勵使用者參與其中。預計他們可能會使用加密貨幣作為交易和所有權媒介。
· 目前 GPU 市場同質化嚴重,缺乏吸引力。儘管一些市場透過代幣激勵聚集了供應,但由於去中心化訓練的挑戰,需求端仍然疲軟。
· 全球去中心化 GPU 市場競爭激烈。 (以下是幾個GPU 供應商的價格比較:)
· 如果Prime Intellect 能提高去中心化AI 訓練的效率,將為GPU 需求打開大門。
· Prime Intellect 有知名投資者支持,如Clem Delangue(Hugging Face 聯創兼CEO)、Erik Voorhees(Shapeshift 創辦人兼CEO)和Andrew Kang (Mechanism Capital 聯創兼合夥人)。
欢迎加入律动 BlockBeats 官方社群:
Telegram 订阅群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方账号:https://twitter.com/BlockBeatsAsia