專訪Sapien AI聯創:Label to Earn是AI時代零工經濟的未來

24-09-10 11:19
閱讀本文需 33 分鐘
总结 AI 總結
看總結 收起


AI 有三大基石:算力、資料、演算法。


在這三者中,算力的重要性最為直觀,因此「賣鏟子」的英偉達市值一度超越微軟和蘋果,成為全球最值錢的公司。然而,正如 Scale AI 創辦人 Alex Wang 在一次播客中所強調的,數據正在取代算力,成為 AI 模型效能提升的最大瓶頸。


AI 對資料的渴求無止境,但可存取的網路資料資源已近枯竭。要進一步提升模型效能,必須依賴更多高品質的數據。雖然企業內部擁有大量有價值的數據,但這些非結構化數據只有經過精細標註,才能真正用於 AI 訓練。而數據標註是一項資源密集工作,長期以來被視為 AI 產業鏈上最辛苦、最卑微的部分。


不過,正是憑藉率先進入數據標註領域的策略,Scale AI 在今年5 月的最新一輪融資中獲得了138 億美元的估值,超過了許多知名的大模型公司。這項成就無疑打破了「數據標註只是苦力活」的偏見。


就像許多去中心化算力專案向英偉達發起挑戰一樣,今年4 月剛完成500 萬美元種子輪的加密AI 專案Sapien AI 也試圖向Scale AI 發起挑戰。它不僅要透過去中心化的方式切入長尾市場,還計劃打造全球最大的人工資料標註網路。


近日,BlockBeats 專訪了 Sapien AI 的共同創辦人兼 COO Trevor Koverko。作為Polymath、Polymesh 和Tokens.com等多個成功項目的共同創辦人,Trevor 在創辦Sapien AI 之前已累積了豐富的創業經驗。在採訪中,他深入分享了創辦 Sapien AI 的歷程,以及 Sapien AI 與 Scale AI 如何展開錯位競爭的策略、以及如何從區塊鏈遊戲中汲取靈感來設計業務機制的獨到見解。



Sapien AI 專案體驗網址:game.sapien.io


創新沃土多倫多,加密與AI 社群的創意結晶


BlockBeats:我從您的領英上看到您曾在NHL 紐約遊騎兵隊效力。作為一名前職業冰球運動員,您是如何轉型進入加密行業的?


Trevor:在我的職業生涯中,我嘗試過許多不同的角色。冰球是我的第一份工作。在加拿大,冰球是我們文化中非常重要的一部分,如果你小時候不打冰球,幾乎會被視為異類。所以,這是我成長過程中的重要一環。我從團隊合作和高水準競技中學到了很多,這些經驗至今仍在影響我。


當我的冰球生涯結束後,我開始從事商業,實際上,我曾在亞洲度過了一段時間。我住在中國,具體來說是中國東北部的城市大連。我的運動生涯和在中國的經歷是塑造我成長過程中非常重要的兩大部分。


我是在多倫多的加密生態系中成長起來的。我很早就參與了比特幣社區,那時候以太坊還沒推出。我們經常參加聚會,和朋友們一起交流,也遇到了 Vitalik,當時他只是《Bitcoin Magazine》的編輯。


後來,當 Vitalik 發佈白皮書,比特幣社群逐漸演變成了以太坊社群。那是一段激情燃燒的歲月。我在 2017-2018 年推出了自己的 RWA 專案 Polymath,當時這個領域甚至還沒有一個明確的分類,我們稱之為「證券型代幣」。這是我在加密領域的第一個重大專案。我們在這個專案中做了方方面面的工作,從籌集資金到在以太坊上發布應用。



最後我們也建立了自己的Layer 1 區塊鏈,這是一個更大的挑戰。幸運的是,我們有像 Charles Hoskinson 這樣非常聰明的人擔任協議架構師。如今,這個區塊鏈已經發展成為一個獨立的品牌,名為 Polymesh。它是最早也是最大的 RWA 網路之一,而且是 Layer 1 級別的。現在我只是一個社群成員,因為它已經完全去中心化了,我只是遠遠地支持這個網路。就採用率而言,它表現得非常好,現在 RWA 也逐漸成為一個令人興奮的生態系統。


BlockBeats:什麼契機讓您的興趣從 RWA 轉向 AI,並決定創辦 Sapien AI?


Trevor:在 Polymesh 日常營運去中心化後,我開始對 AI 產生了興趣。多倫多有一個非常強大的 AI 技術社區,許多現代 AI 的早期架構都是由多倫多大學的研究人員創造的,例如「深度學習之父」Geoffrey Hinton 和 OpenAI 前首席科學家 Ilya Sutskever。


左一:Ilya Sutskever ;右一:Geoffrey Hinton


我本身對使用AI 就很感興趣,同時在滑鐵盧大學也有一群從事機器學習的聰明朋友。我逐漸對 AI 的技術堆疊、運作方式、訓練資料的生產過程,以及人類如何參與這些訓練資料的生產產生了興趣。這是一個非常自然的學習過程。


起初我並沒有創辦公司的野心,但在深入AI 和機器學習領域大約6 個月後,在滑鐵盧大學機器學習研究生課程一位導師在的指導下,我們開始發現一些有問題的有趣領域,並看到了解決這些問題的機會。最終,我們創立了 Sapien 這家公司。


BlockBeats:您可以為不了解 Sapien AI 的人介紹一下這個專案的核心使命是什麼嗎?在目前的 AI 產業中,數據標註服務的重要性體現在哪裡?


Trevor:資料標註極為重要。這也是 ChatGPT 這類主流大語言模型成功的主要原因之一,因為它們是第一批使用工業規模的人類資料標註員來豐富資料集的模型。


時至今日,資料標註的重要性還在不斷增加,因為這些模型之間的性能競爭非常激烈,而提升模型性能的最佳方式就是在資料集中加入更多的專業人類資料標註。


我們將數據處理視為一個供應鏈:首先是原始數據,然後需要對其進行結構化和組織。完成結構化後,就可以訓練這些資料。訓練完成後,就可以在其上進行推理。簡而言之,這是一個在人工智慧背景下將數據逐步增值的過程。


就像其他產業一樣,我們開始看到AI 產業的細分,不同的垂直領域正在湧現,某些公司在流程的特定步驟上表現出色。對我來說,最有趣的是第二步,即資料的結構化和訓練準備,這一直是我最感興趣的部分。


去中心化的Scale AI,瞄準長尾市場


BlockBeats:是什麼讓Sapien AI 有別於傳統的Web2 公司,如Scale AI?


Trevor:這是個好問題。我們很欣賞 Scale,他們是一家了不起的公司,共同創辦人都非常出色。我們認識其中一位。他們是世界上最大的 AI 公司之一,無論是從收入、市值或使用量來看都是如此。


我們的不同之處在於,我們從第一原理出發,思考在 2024 年,一個現代化的資料標註技術堆疊應該是什麼樣子。我們不一定追求 Scale 所涵蓋的那些用例,我們的目標是中端和長尾市場


我們努力讓任何人都能輕鬆獲得資料集的人工回饋,無論你是中階市場的開源模型,還是企業級模型,或只是週末進行研究的個人。如果你想提高模型性能,需要隨需應變的人工回饋,那就來找我們。


你可以把我們看作是 Scale AI 的一個更分散式或去中心化的版本。 這意味著我們的標註員更加廣泛,他們不局限於某個特定位置,而是可以在任何地方遠端工作。某種程度上,這種分散性可以讓我們在資料標註品質上做得更好,因為多樣性不僅是為了實現多元化,還可以提升資料訓練的品質。


例如,如果你在一個設施中讓一群背景相似的人標註數據,很可能會產生有偏見或文化傾向的數據輸出。因此,我們從一開始就努力使其盡可能多樣化和穩健。由於更加去中心化,我們在某種程度上也能獲得更高品質的標註員。如果你必須去菲律賓某個特定地點工作,你能吸引到的人才是有限的,但透過遠端優先的方式,我們可以從任何地方找到標註員。


我並不是說 Scale 沒有做這些事情,但我們在思考如何服務模型市場的其他部分。因為我們認為這個市場會不斷成長,將會出現大量需要人工回饋的私有和授權模式。


BlockBeats:Sapien AI 的資料標註工作流程是如何設計與最佳化的?有哪些關鍵環節確保資料品質?


Trevor:我們的平台運作方式類似一個雙邊市場。你可以把它想像成資料標註界的 Uber,一個去中心化的版本。 一方面是需求方,就像 Uber 中的乘客,對我們來說就是需要在其模型中獲取人類回饋的企業客戶。例如,他們正在建立一個大語言模型,想要對模型進行微調,這時就需要人工參與。


他們來找我們,將原始資料集上傳到網路。我們根據資料集的幾個不同變數(如複雜度、資料模態、資料格式等)給出報價。對企業客戶來說,這個過程是非常自助的。


另一方面是供應方,即標註人員,他們相當於我們的 Uber 司機。 目前,這實際上是行業的瓶頸,我們需要盡可能多的標註員加入網路。因為需求基本上是無限的,就像 Uber 一樣,總是有人想搭車,這個需求永遠不會結束。在 AI 領域,這些 AI 模型對消耗更多數據的需求也是持續的。


我們非常重視供給側,致力於讓任何人都能輕鬆地進行資料標註。我們發明了一些新技術,並且仍在不斷改進這些技術,以確保在分散式模式下實現大規模的高品質標註。最初我們提出的問題是,在沒有中心化管理的情況下,能否確保高品質的標註? 這其實是我們所謂的「數據標註三難問題」:我們能否讓客戶的成本更低,讓標註員的收入更高,同時提高整體品質?


我們在這個領域進行了多次實驗,並取得了一些非常有趣的結果。我們嘗試了均值回歸、異常檢測等不同的新機制,並混合使用了一些機率模型,這些模型可以在很大程度上推測標註員的工作品質。我們還在研發一些更新的技術。不過到目前為止,我們對未來五到十年數據標註的發展前景感到非常興奮。我們認為,數據標註將會變得更加去中心化、更自助化和更自動化。


BlockBeats:能否更詳細介紹一下你們的產品和技術,特別是那些能確保資料品質的部分?我知道你們有質押機制來防止標註員作惡,還有其他技術嗎?


Trevor:是的,我們正在嘗試許多不同的方法。我們有聲譽系統,還有質押與懲罰機制。標註者在質押一定的資金後,如果未能達到標準,可能會被罰款。這些機制仍處於早期實驗階段,但我們發現,僅僅這種激勵機制就可以顯著提高品質的遵守度,甚至可能提高多個標準差。 不過,這一系列品質控制是由不同演算法的加權平均來實現的,我們也不斷微調這些演算法。同時,我們自己也在使用機器學習來優化這個過程。例如,我們使用 ML linter 工具和「紅兔子」測試,即向標註者提供虛假數據,以測試他們是否誠實標註。


這是一個大問題:如何知道人們是否在對網路進行女巫攻擊(即試圖作弊並操縱系統)?我們必須時時警惕這一點。這也是我們喜歡某些 Web3 激勵機制的原因,因為這些機制最初就是為了解決類似的女巫攻擊問題、拜占庭將軍問題而發明的,目的是讓遵守規則符合每個人的最佳利益。如果你自私,你就會遵循網路協定。


我們還處於早期階段。對一些大客戶,我們實施了更傳統的品質控制方法,同時我們也在快速朝著這個新的前沿資料世界邁進。


BlockBeats:您覺得 Sapien AI 作為一個去中心化資料標註平台的最大優勢是什麼?


Trevor:正如我所說,我們的平台更加自助化,這使我們能夠服務更廣泛的客戶群。對於標註員來說,我們的要求也非常廣泛。我們希望任何人都能成為標註員,因為我們相信 AI 的下一個時代或下一章將是從人類提取更多現有知識。不只是基礎層面的東西,像是「這是停車標誌」、「這是一輛汽車」之類人類和機器都能輕易辨識的內容,而是更多關於推理的內容。


Scale 公司的 Alex Wang 談到這個問題:網路上的資料是推理的結果,但並沒有真正描述推理的過程。 那麼,我們如何更深入地了解人們的思維?這需要更多的工作,需要更專業的標註。這有可能幫助我們加速通用人工智慧(AGI)的發展。


所以,我們的更大使命是:我們能否在企業內部的私有資料集中,在專業人士的腦海中,解鎖更多知識?這些專業人士在某些垂直領域(如醫療或法律)擁有模型尚未掌握的專業知識。


我們仍在努力使我們的平台盡可能具有流動性,盡量保持供需平衡。 我們希望實現動態定價,就像 Uber 一樣。這些機制使我們更像一個真正的雙邊市場,一邊滿足數據需求,一邊幫助標註員加入。 這些都是我們建構平台的一些獨特方式。在品質保證方面,我們即時使用了我之前提到的那些技術。我們希望我們的標註員盡可能多地獲得即時回饋,因為這能為所有人創造更好的體驗。


Label to Earn,零工經濟的未來


BlockBeats:我注意到Sapien AI 與遊戲公會Yield Guild Games(YGG)達成了合作,所以Sapien AI 的去中心化標註機制是否可以理解為一種「label to earn」遊戲?



Trevor:完全正確。 我們確實希望能夠進入那些想透過手機謀生的人的世界,我們認為這是零工經濟的未來。 你不需要一輛車來開 Uber,不需要在一個實體地點進行外帶配送,你只需要登入手機,進行數據標註,就可以賺取收入。


YGG 是個了不起的合作夥伴,他們是我們的天使投資人之一。我們與創始人 Gabby 關係很好,他們在東南亞有一個了不起的社區。我們與他們有宏大的計劃,希望幫助他們的用戶找到新的賺錢方式,同時他們也幫助我們獲得新用戶。我們最近宣布了一些合作項目,未來將有更多計劃正在籌備中。 Q4 的大部分時間裡,我們也會在亞洲,與這些合作夥伴見面,並繼續推動合作。


BlockBeats:您對《Axie Infinity》這樣的「play to earn」區塊鏈遊戲有什麼看法?


Trevor:這非常具有創新性,可以說是一個靈感的來源。雖然只是一個實驗,但我相信它會以新的形式回歸。這就是新創公司和去中心化創業的美妙之處,是一種創造性破壞。


我們正在做的事情確實有一些「play to earn」的元素,我們也傾向於使用「label to earn」或「train to earn」這樣的說法。但其中還是有區別的,因為我們是一個真正的業務。這裡有真實的數據被標註,有真實的客戶支付真金白銀,最後有一個真實的產品被生產出來。所以這不只是一個無限循環的電玩遊戲。


雖然用 Sapien AI 標註數據很有趣,但可能不如玩《俠盜獵車手 V》有趣。我們希望在趣味性和實用性之間取得良好的平衡,讓它既是一種你可以在公車站等 5 分鐘時做的事情,也可以是在家裡電腦前花 5 小時做的事情。我們的目標是讓它盡可能地易於參與。


BlockBeats:你們是否有辦法讓資料標註變得更有趣,不只是工作,而更像遊戲?


Trevor:是的,我們現在有很多嘗試。你可以造訪 game.sapien.io,親自體驗這個遊戲並標註真正的 AI 數據。你可以成為 AI 工作者,邊玩遊戲邊標註真正的 AI 數據,還可以賺取積分。這款遊戲非常簡約,介面直覺。


game.sapien.io遊戲介面


資料本身也很有趣。你可能需要標註一些非常有趣的圖片,例如為我們的時尚數據做標註等。我們計劃支援各種不同類型的模態和資料集。我們計劃隨著時間的推移不斷添加更多的功能。


未來藍圖:建構全球最大的人工資料標註網


BlockBeats:除了YGG,你們還計劃在未來與哪些加密項目合作?


Trevor:我們有一些有趣的想法,例如為資料標註創建一個資料標準。目前,這一領域還比較混亂,每個客戶的需求都不一樣,我們必須與每個客戶進行客製化集成,因為他們的資料格式和資料模態各有不同。


因此,我們正在與去中心化資料領域的其他人合作,處於建立這一標準的早期階段,併計劃將其作為公共產品發布。我們在 Polymath 時也做過類似的事情,我們發布了 ERC-1400,它現在成為了以太坊上代幣化的預設標準之一。


所以我們有一些關於創建標準的想法,併計劃與過去幫助過我們的團隊以及一些行業合作夥伴共同推動這一進程。這將使去中心化 AI 變得更加真實,也會讓它更具互通性,這意味著資料可以更容易地在不同的步驟之間流動,因為沒有一個人能夠完成所有事情。


BlockBeats:Sapien AI 主網和行動應用程式的具體發布日期是什麼時候?


Trevor:目前我們還沒有具體的發布計畫。我們現在專注於我們的核心 Web2 產品市場匹配。我們的成長非常好,現在已經有來自 71 個國家的標註員。今年我們在需求端的收入幾乎每個月都在翻倍。


我們只想繼續成長,不斷了解我們的客戶,持續為他們提供服務。隨著時間的推移,我們會對各種不同的策略和技術保持開放。


BlockBeats:我看到Base 共同創辦人Rowan Stone 已經加入Sapien AI 擔任首席業務開發官,Sapien AI 會建立在哪個區塊鏈公鏈上?是否有發行原生代幣的計畫?



Trevor:這些都是很有深度的問題,我很欣賞。 Rowan 非常棒,他和 Jesse Pollak 一起創立了 Base,Jesse 絕對是個傳奇人物。 Rowan 有著豐富的經驗,在建構工業級 Web3 產品方面無人能及。在我看來,他是首屈一指的。他參與帶領了「Onchain Summer」活動,這是我記憶中最成功的活動之一。


他正在幫助我們制定某些領域的市場策略。但是,就像我剛才說的,我們目前非常專注於為現有客戶提供服務,這是我們的主要焦點。在選擇任何 Layer 1 或其他方面,我們還沒有做出任何承諾或決定。但在未來,我們會繼續考慮各種可能性。


BlockBeats:Sapien AI 未來有什麼計畫或目標?您希望在接下來的幾年中實現哪些里程碑?


Trevor:我們的使命是將全球人類資料標註員的數量增加100 倍,並讓任何人都能輕鬆接上這個網路。我們想建立世界上最大的人類數據標註員網路。我們認為這將是一個非常有價值的資產,所以我們想要建立並控制它,但最終會開放它。我們希望任何人都能接入並完全無需許可。


如果我們能夠建立全球最大的人工數據標註網絡,這將解鎖大量潛在的AI 能力,因為我們擁有的高品質數據越多,AI 就越強大,也越能為所有人所用。


我們希望它能為所有人服務,而不僅僅是那些負擔得起數百萬人類標註員網絡的大型語言模型公司。現在,任何人都可以使用這個網路。你可以把它看作是一個「標註即服務」的平台。


去中心化的背後:創業者的任務是解決問題


BlockBeats:最後我想問您對整個產業的觀察和看法。您認為目前加密 AI 領域還存在哪些尚未被開掘的潛力?


Trevor:我對這個領域非常興奮,這也是我們創立 Sapien AI 的原因。這裡有好的一面,也有需要防範的一面。


好的一面是,去中心化的 AI 可能會更加自主化,更加民主化,更加易於訪問,也更加強大。這意味著 AI 代理可以有自己的原生貨幣進行交易,這也意味著你可以擁有更多的隱私,並且可以透過 ZK 技術確切地知道模型中包含什麼。


在防範方面,我們面臨的是一個非常可怕的世界,在這個世界裡,AI 變得越來越集中化,只有政府和少數幾家大型科技公司才能接觸到強大的模式。這是一個相當可怕的場景。因此,開源和去中心化的 AI 是一種防禦手段。


對我們來說,我們更專注於資料方面,去中心化資料。這並不意味著你不能去中心化 AI 堆疊的其他部分,例如計算和演算法本身。就像 Transformer 是演算法的第一個創新,我們已經看到了更多的創新,但總是有改進的空間。


去中心化並不意味著你應該這麼做,僅僅因為你可以去中心化某些東西並不意味著你就應該這麼做。最終必須要有真正的價值。但就像金融和 Web3 空間的其他部分一樣,AI 肯定可以從去中心化中受益。


BlockBeats:對於想要進入加密 AI 領域的創業者,您最想給什麼建議?


Trevor:我建議要盡可能多學習,真正理解技術堆疊和架構。你不一定要成為機器學習博士,但了解它的工作原理並進行研究很重要。從這裡開始,隨著時間的推移,你會逐漸更有機地理解問題。這是關鍵。


如果你不了解它的工作原理,就無法理解問題所在。而如果你不知道問題在哪裡,你就不該成為創業者,因為創業者的工作就是解決問題。


所以這與其他任何新創公司沒有什麼不同,你應該理解這個領域。你不必是該領域的全球頂尖專家,但要足夠了解它,以便能夠理解問題,然後嘗試解決這些問題。


欢迎加入律动 BlockBeats 官方社群:

Telegram 订阅群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方账号:https://twitter.com/BlockBeatsAsia

举报 糾錯/舉報
請先登錄 Farcaster 後發表評論
選擇文庫
新增文庫
取消
完成
新增文庫
僅自己可見
公開
保存
糾錯/舉報
提交