Grass如何為AI時代繪製全網的資料圖譜

24-08-24 12:55
閱讀本文需 17 分鐘
总结 AI 總結
看總結 收起

巨頭們為了獲得 AI 決賽的入場券,都在一擲千金購買優質數據。


在 AI 時代,數據和算力一樣,都是必需品。 Reddit 曾在 IPO 招股書中透露,透過與 AI 公司簽訂的數據授權協議,已實現總計 2.03 億美元的收入。先前 Information 報道,OpenAI 正在向出版商提供每年 100 至 500 萬美元的報價,讓更多新聞機構簽署許可協議來訓練其 AI 模型。


至於優質資料的保護,最顯而易見的例子莫過於 X(前 Twitter)2023 年開始對 API 的嚴格限制。曾經投資過 OpenAI 的馬斯克極有可能就是因為知道 X 是一座資料金庫,才嚴格限制了 API 對 X 資料的取得。舉個最簡單的例子,雖然很多人都習慣用 AI 明星產品 Perplexity 替代 Google 進行搜索,但只有在最新發布的 Grok 上,用戶才能檢索到 X 上最新的帖子。 某種程度上可以說,X 的數據成了 Grok 最大的護城河。


Grok 可以取得並引用出X 上即時的數據資料,這是其他搜尋引擎無法做到的


因為英偉達的存在,在加密圈,似乎人們只在乎GPU 類項目,但很少有人認識到數據也是AI 發展的關鍵資源。再強的算力也沒辦法創造奇蹟,巧婦也難為無米之炊。沒有足量的數據,足夠優質的數據,系統就無法準確理解、預測和產生內容,進而無法在複雜的現實世界中有效運作。


如果把Chatgpt 代表的AI 應用和英偉達代表的AI 算力稱為面子,那麼Google 和Microsoft 等巨頭則整合有全網巨大部分的內容,提供了AI 的里子。


資料不只是 AI 的基礎,更是 AI 的護城河。對此,深耕於資料圖層的 Grass 早有了一套完整的解決方案。


Grass 憑什麼可以成為去中心化的 Google


如果讓我用一句話總結 Grass 的核心工作理念,那就是從群眾中來,到群眾中去。全球用戶透過運行 Grass 節點,貢獻閒置頻寬和中繼流量用於捕捉整個網路中的即時優質數據,並獲取 Token 代幣獎勵。



與傳統巨頭不同, Grass 作為在資料領域建立專案的領先加密協議,其抓取到的互聯網海量資料進行驗證、梳理和清洗,成為可供出售的優質資料集。任何有意訓練自己 AI 的企業和個人都可以從中這套系統中獲益。


正如Hack VC 的管理合夥人Ed Roman 對Grass 的評價由於龐大的激勵節點網絡的強大力量,這種數據獲取可能會優於任何一家公司內部的數據獲取努力。這不僅包括獲取更多數據,還包括更頻繁地獲取數據,以便數據更具相關性和最新性。阻止一支去中心化的資料抓取者大軍幾乎是不可能的,因為它們本質上是碎片化的,並且不駐留在單一 IP 位址內。


當然,使用者在貢獻閒置頻寬的過程中,自然會在意安全問題。對此Grass 也給了解釋:在當貢獻多餘頻寬進行資料抓取時,Grass 不會使用使用者的電腦或查看使用者在電腦上執行的任何操作。 它所做的只是透過使用者的 IP 位址路由網路流量,與使用者的活動完全無關,這意味著其無法存取使用者個人資料。


Grass 極低的入門門檻為其累積了龐大的使用者群體。上線不到一年的時間,Grass 就已經擁有了超過 200 萬活躍節點,如今的活躍節點超過 220 萬。如果這超 200 萬節點用戶的積分在 Grass TGE 之後轉化為相應的代幣,這可能會使 Grass 成為有史以來分佈最廣泛的空投項目和社群之一。



作為不多有好產品-市場契合度(PMF,Product Market Fit)的產品,Grass 團隊不僅靠著穩定營運展示了強大的技術基礎,也用技術和社群合力為市場提交了一份滿意的答案。 7 月 Grass 基金會在 Hugging Face 發布了資料集 UpvoteWeb,該資料集包含 2024 年 Reddit 上的 6 億個頂級貼文和評論。是目前為止最大、最新的開源 Reddit 資料集。


Reddit 資料對於AI 模型來說非常有價值,因為它透過upvote 機制進行了人工標記,這種機制對響應品質進行排序,並為專家表達意見的子版塊分類。 Google 曾與 Reddit 達成了一項價值約 6000 萬美元的協議,以獲取 Reddit 上的數據用於訓練其 AI 模型。


UpvoteWeb 得到了來自Hugging Face 的Caleb 的建議


Grass 的長期目標不僅限於歷史資料。他們打算建立一個即時情境檢索(LCR)引擎,該引擎將利用所有 Grass 節點並行、全天候地持續抓取互聯網,實質上將 Grass 轉變為一個用戶擁有的搜尋引擎,就像 Google 一樣。理論上,任何希望檢索即時資料的應用程式或大型語言模型(LLM)都可以使用 LCR。


Grass 為了確保訓練模型的資料的有效性,也引入了ZK 處理器和類似時間戳的功能的資料帳本,透過ZK處理器保證AI 模型得到正確的訓練,透過資料帳本保留的metadata 來保證抓取資料的真實性和來源。


不只步於已有的成績,未來的 Grass 也會從鍊和節點兩方面持續迭代升級,增強資料傳輸和質量,提升網路效應。


曾經擔任GoogleCEO 長達10 年之久的Eric Schmidt 在史丹佛大學電腦學院2024 年的演講中表示,曾經覺得英偉達的CUDA 並不是什麼高明的程式語言,但現在CUDA 是英偉達最棒的護城河,所有的大型模型都要在CUDA 上運作。也讓英偉達成為了 AI 產業當之無愧的基礎建設和產業標準。


坐擁大量使用者的Grass 則正在努力透過成為AI 資料層,這意味著Grass 可以為更多的AI 應用場景提供支持,從自然語言處理到影像識別,再到複雜的機器學習任務,Grass 的資料層能夠滿足各種不同的需求,最終像英偉達一樣成為產業基礎設施。



作為一個普通用戶,第一次接觸到AI 的資料層的時候十分不解,不清楚其中的必要性。帶著這個好奇,我仔細研讀了 Grass 的設計理念。


因為Grass 網路要處理和儲存海量的數據,尤其是即時數據,這種規模的數據處理需求遠遠超過了傳統鏈上處理能力的限制。如果所有資料都直接在主鏈上處理,即使再高 TPS 的網絡,也將面臨嚴重的擁塞問題,導致效率低下。


在區塊鏈上進行操作通常伴隨著高昂的成本,透過將大量的資料在鏈下進行處理和壓縮,然後將處理後的結果提交到主鏈上。這大大減少了鏈上的資料負擔,並提高了整體處理效率。


此外,透過 ZK 處理器,敏感資料也獲得了額外的隱私保護。再透過原資料的記錄功能,Grass 也可能對優質的節點進行激勵。


在透過 AI 資料層解決了可擴充性,成本和隱私問題之後。 Grass 也推出了應用版節點,該節點使用的資源不到 Chromium 瀏覽器的 5%,但處理的頻寬比 Chrome 擴充功能高出 10 倍。



不只如此,Grass 還將會推出行動版和實體礦機,這意味著Android 和IOS 用戶可以獲得全天候的獎勵。因為手機的便利性極有可能吸引許多 Web2 用戶,大大擴展了 Grass 網路。而且由於電腦與手機 IP 位址不同,舊用戶還可以從手機端再獲取一份額外的收益。


優質背景疊加高PMF,潛力驚人


不僅是團隊技術持續在線和社區持續追捧,已經擁有極高PMF 的Grass 背後的資方背景同樣強悍。


Grass 的母公司 Wynd Network 先前曾獲得來自 Polychain Capital 和 Tribe Capital 的種子輪融資。不僅如此,因押注 Solana 而一直備受矚目的 Multicoin 管理合夥人 Kyle Samani 則是參與了 Wynd Network 的 Pre 種子輪融資。



值得關注的是,Hack VC 也曾在文章中提及對Grass 的投資,不確定這是否意味著Grass 還有尚未披露的新一輪融資。


有社群成員預計。在 Grass TGE 之後,當人們意識到透過 Grass 可以被動賺取大量金錢且沒有任何風險時,錯過 Grass 的人將會蜂擁而至。這意味著,發布後,潛在的和隱含的需求加上行動應用程式的推出,用戶數量將急劇增加。根據成長率、吸引力因素和網路效應,Grass 可能在一年內擁有 5,000 萬用戶。


隨著加密產業持續對新名詞祛魅,營收成了大家關注的焦點。根據 House of Chimera 提供的,近三個月各類 DePIN 專案累積費用,io.net 和 Helium 分別累積了 50 萬美元,Akash 則獲得了 20 萬美元費用。



取得真實收入這個老大難問題,對Grass 來說,似乎不構成什麼挑戰。就以上文提到的 Reddit 資料集 UpvoteWeb 為例,與此類似的資料集,Google 則需要支付 6,000 萬才可以取得。


與 Web2 賽道中資料抓取和代理服務領域處於領先地位的 Bright Data 相比。不論是從 Data for AI 的每筆記錄 0.001 美元算起,還是從 Perplexity 獲取到的 500 萬次請求 15000 美元的標準來算,Grass 獲取的 6 億 Reddit 數據集都價值不菲。



更別提Reddit 本身從2023 年7 月開始,將API 費用設定為每1,000 次調用0.24 美元的新政策了。要知道,以上的數據只是 Grass 沒有推出代幣,沒有上線行動版和專屬礦機的情況下。一旦 Grass 形成了更強的網路效應,所有數據都要再次更新。


對於具有網路效應的系統,時間非常重要。 Grass 已經在加密甚至 AI 領域建立了足夠廣泛的用戶基礎和技術累積。期待其飛輪能進一步發展,成為真正的 AI 資料層。



如同Grass 為社區舉辦的TOUCH GRASS 挑戰一樣傳遞出的美好願景,讓Grass 成為AI 時代的數據圖譜,將中心化企業的利益過度給更多的用戶,給Grass 社區成員更多Touch Grass 的時間。



欢迎加入律动 BlockBeats 官方社群:

Telegram 订阅群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方账号:https://twitter.com/BlockBeatsAsia

举报 糾錯/舉報
請先登錄 Farcaster 後發表評論
選擇文庫
新增文庫
取消
完成
新增文庫
僅自己可見
公開
保存
糾錯/舉報
提交