區塊鏈是開啟人工智能大時代的關鍵變量 視焦點訊

    來源: 未央網2023-06-28 09:12:32
      

    AI大模型時代或已走向終局,前路未知

    2022年11月30日,人工智能公司OpenAI推出了 AI 聊天機器人ChatGPT,在短短兩個月的時間里,活躍用戶數突破一億,成為史上用戶數增長最快的消費級應用。ChatGPT成功背后是OpenAI訓練的1750億參數模型GPT-3。一時間AI大模型迅速成為時代焦點,微軟百億美元投資OpenAI,谷歌、特斯拉、百度、阿里、小米等國內外互聯網巨頭在幾個月的時間內紛紛推出自己的AI大模型,OpenAI迅速迭代出GPT-4,幾乎每個月都至少有一家科技大公司入局訓練大模型,人工智能成為當前最炙手可熱的賽道。

    然而就在這樣一個市場狂歡、科技巨頭紛紛“走火入模”的時刻,AI大模型的領軍者,OpenAI,卻給市場澆了一盆冷水。2023年4月18日在麻省理工學院的活動中,OpenAI的CEO Sam Altman在演講中警告稱:“我們已經處在大模型時代的尾聲”,并表示如今的AIGC發展中,將數據模型進一步做大,塞進更多數據的方式,已經是目前人工智能發展中最后一項重大進展,并且還聲稱目前還不清楚未來的發展方向何去何從。

    如果拋開過熱的市場預期和浮躁的跟風模仿去分析問題的本質,Altman對未來AI的發展方向是清晰而準確的。其說法側面道出了OpenAI乃至整個AI賽道參與者目前所面臨的現實困境:


    (資料圖片)

    1. 可用數據枯竭帶來的數據瓶頸

    OpenAI最早的語言模式是GPT-2,于2019年公布,發布時就有 15億參數,此后隨著OpenAI研究人員發現擴大模型參數數量能有效提升模型完善程度,真正引爆AI行業浪潮的GPT-3.5發布時,參數數量已經達到了1750億。但人類互聯網歷史上被保留下來的各種高質量語料,已經在 GPT-3以及后續發布的GPT-4的學習中被消耗殆盡。大模型參數數量仍然可以繼續膨脹下去,但對應數量的高質量數據卻越來越稀缺,因此增長參數數量帶來的邊際效益愈發降低。

    2. 算力爆炸導致邊際收益遞減帶來的經濟效益瓶頸

    AI三大核心要素是數據、算法和算力,而算力的發展是最為迅速的一環。2020年OpenAI就發布分析報告,從2012年開始,AI訓練所用的計算量呈現指數增長,平均每3.43個月便會翻倍,遠高于摩爾定律的18個月翻倍的速度。大模型正是在這一背景下誕生的。依托飛速發展的算力,簡單粗暴地堆砌參數是提升模型能效的捷徑。機器學習先驅Richard S. Sutton著名的文章《苦澀的教訓》里開篇就曾說道:“70年的人工智能研究史告訴我們,充分利用計算能力的一般方法最終是最有效的方法。”OpenAI秉承這一簡單甚至原始的理念,3年內將模型參數從15億(在當時這已經是一個天文數字)提高到1750億,足足拉高了116倍。

    參數的爆炸式增長帶來的直接后果就是模型成本的指數級上升。2019年以前,人工智能還是個百家爭鳴的大眾賽道,而大模型帶來的投入成本門檻迅速把這個賽道變成了資本聚集、大廠統治的游戲。據業界估計,GPT-3僅訓練一次的費用就高達500萬美元,行業估計GPT-4的研發加運營成本突破數億美元。

    在如此高昂的成本之下,AI如何商業化落地成為業界難題。盡管GPT-4已經表現出了較高的智能化水平,但其局限性也很明顯。支持大規模商業化應用所需要的是GPT-X,即模型的場景化和快速更新。面對極度高昂的訓練成本,難以形成充分的市場化競爭,類似OpenAI這樣的市場寡頭也面臨投入成本邊際效應遞減嚴重的問題,缺乏持續研發迭代的經濟激勵。這正是Altman所說的“大模型已至終局”而前路未知的根本原因。

    3. 數據合規、隱私保護、AI倫理層面的風險不確定

    AI的道德風險始終是行業發展中不可規避的話題。在GPT-4發布幾日內,特斯拉首席執行官埃隆·馬斯克在內的1748人簽署公開信,呼吁暫停訓練比GPT-4更強大的人工智能系統至少6個月,以評估潛在的AI道德風險。與此同時,專注于人工智能技術倫理的AI和數字政策中心(CAIDP)要求美國聯邦貿易委員會(FTC)調查OpenAI是否違反了消費者保護規則,認為其推出的AI文本生成工具“存在偏見、具有欺騙性,并且對公共安全構成風險”。3月31日,意大利國家隱私監管機構正式下令封禁ChatGPT,并指控OpenAI「非法收集個人數據」。值得注意的是,該「臨時禁令」將一直生效,直到OpenAI能夠尊重歐盟具有里程碑意義的隱私法——通用數據保護條例(GDPR)

    基于價值互聯網的AI新時代三范式

    當一項顛覆性技術陷入瓶頸期時,往往需要另一項更加具有顛覆性的技術的介入來突破瓶頸。區塊鏈技術和人工智能作為21世紀數字化技術突破的代表,一直處于平行發展但偶爾交叉的狀態。關于區塊鏈與人工智能的結合業界多有討論,但大多只停留在表層,例如區塊鏈為AI提供分布式數據治理,AI為區塊鏈提供智能化自動執行工具。但隨著兩項技術的快速迭代發展,各自領域均不斷涌現出突破性應用,二者結合所帶來的想象空間其實是被遠遠低估的。

    在應用層面,區塊鏈技術發展的速度要遠遠領先于人工智能。它所創造出的最輝煌應用,就是Web3。

    Web3是下一代價值互聯網由區塊鏈特有的激勵機制打造的數字資產應用為Web3賦予萬億美元經濟價值,成為數字時代的新經濟體。Web3是數據所有權的變革,而數據要素是AI的核心生產力。這一內生聯系使區塊鏈和人工智能產生了巨大的交互空間,而這交互的核心就是數據要素化。

    數據要素化包含確權、加工和共享三個核心環節,在數據確權層面,區塊鏈提供用戶與建設者擁有并信任的互聯網基礎設施;在數據加工層面,區塊鏈構建安全可信的價值互聯網;在數據共享層面,區塊鏈創造用戶與建設者共建共享的新型經濟系統。以數據為核心,區塊鏈可為AI發展提供技術底座、經濟模型和商業化場景。在此我們提出基于價值互聯網的AI新時代三范式

    (一)支撐AI生產力的是去中心化數據基礎設施

    數據是數字時代的生產要素,也是AI的核心生產力。OpenAI發布ChatGPT之后,百度迅速發布“文心一言”,但對比之下效果卻不甚理想。很多人說原因是GPT的語料庫是全球互聯網,而“文心一言”的是百度知道和百度貼吧。這當然是言過其實的調侃,但深思其背后的邏輯卻是成立的,即大模型的成功依賴于數據來源的廣度和開放度。僅從一兩個平臺獲取數據進行訓練,必然只會做出有“偏見”的模型。

    ChatGPT在這一點上做得很好,依靠互聯網的開放度盡可能多地收集了數據,但其主要來源仍然是中心化的數據平臺,這也是Web2互聯網范式下的數據困境,它會在數據應用層面帶來兩大問題:

    1. 數據源枯竭

    依賴中心化平臺所產生的數據無法保證有穩定持續的數據源來訓練升級模型。Altman提到的互聯網語料已被GPT窮盡只是問題的冰山一角。更嚴重的問題是,缺少數據激勵會導致新的優質數據越來越少,甚至出現AI無數據可用的問題。

    讓我們想象這樣一個場景。如果說ChatGPT逐漸完善成為唯一的知識平臺,Quora、Stackoverflow、知乎等一眾知識平臺必將失去生存空間,而它們卻又是ChatGPT訓練的主要數據來源,那未來的ChatGPT又要用什么數據來訓練呢?

    2.?數據質量低下

    對于AI來說,平臺有自己的應用場景,不會考慮AI訓練的需求。平臺不會對所謂的“數據質量”做審核,例如知乎上分享的不一定是知識,也可能是剛編的故事。同時根據不同平臺的使用人群不同還會產生內容偏見。這也是為什么ChatGPT經常會給出一些明顯錯誤甚至荒謬的回答。

    以上問題的核心是平臺數據并沒有完成數據要素化。用戶作為數據的生產者無法對數據進行確權,導致數據全部歸平臺所有;平臺作為數據的加工者缺乏激勵,不會對數據進行應有的加工;模型公司作為數據的使用者與數據生產加工環節嚴重割裂。而去中心化數據基礎設施正是這些問題的解決方案。

    《區塊鏈托管重塑數據要素權益分配機制》一文中,我們提到了Web3是數據要素革命,是數據主權的“還數于民”。在AI新時代里,去中心化數據基礎設施將為AI模型提供全生命周期數據解決方案,包括:

    1)數據確權:用戶數據通過自主數字身份確權,數據生產者直接參與模型建設周期并獲得對等激勵;

    2)數據加工:數據加工者(例如模型數據標注、數據質量評價)通過去中心化數據基礎設施參與模型建設并獲得對等激勵;

    3)數據共享:數據生產者通過去中心化數據托管共享數據給數據使用者(例如建模公司),建模公司可以通過智能合約自動化數據獲取和建模流程,實現快速模型升級。

    (二)支撐AI商業化的是DataFi

    Web3的成功在于區塊鏈技術所提供的優秀激勵模型和可持續的經濟系統。去中心化金融(DeFi)已經創造出了繁榮的數字經濟生態和萬億美元的市場價值,以數據資產為核心的數據金融(DataFi)將成為支撐AI商業化的全新商業模式。

    在DataFi中,數據作為生產要素會實現通證化。數據的產生、加工、存儲和使用都會依照去中心化經濟模型自主產生或消耗數據資產通證。數據循環會被充分激勵并產生凈價值。AI模型的全生命周期都會以一種更加分布式的形式呈現,包括去中心化算力供應商、去中心化數據標注和基于去中心化數據基礎設施的數據托管服務商。模型訓練不再具有高門檻。

    在DataFi中,數據通證會創造出以數據資產為核心的衍生品交易市場。AI生態參與方可以充分挖掘自身的數據價值或服務價值,參與以數據資產為核心的金融衍生品交易、質押、抵押貸款等創新金融服務。數據資產的使用效率得到充分釋放。

    (三)支撐AI規范性的是分布式數字身份

    除了上文提到的數據確權,分布式數字身份也將成為支撐AI合規發展的關鍵監管技術。分布式數字身份為用戶賦予了數據自主權,打破數據控制者對數據的天然壟斷,也提升了用戶在算法面前的自主權。在AI新時代中,分布式數字身份包含三個主要應用場景:

    1. 用戶分布式數字身份

    用戶通過分布式數字身份參與AI構建周期,通過數據確權和自主數據主權保護數據隱私,并實現對等數據激勵。在合規層面,通過分布式數字身份為用戶提供了100%的數據主權,用戶對自己的隱私數據擁有完全控制權,能夠自主決定數據的披露對象和使用場景,并且結合零知識證明等技術,實現最小化隱私披露,天然符合《數據安全法》《個保法》的相關規定。通過將個人作為數據共享的載體,是《個保法》中個人信息可攜帶權的體現,結合自主身份使得個人數據可以遵從本人意愿向數據使用方(例如建模公司),嚴格符合GDPR等國際數據共享法律法規。

    2. 模型分布式數字身份

    在AI新時代中,模型獨立且唯一的數字身份。用戶可以通過數字身份像選擇商品一樣選擇模型,并且通過模型數字身份解決使用量證明、版權糾紛和版本管理等問題。

    3. 數字人和AIGC分布式數字身份

    對于AI構建出來的實體(例如數字人)頒發唯一數字身份,并在法律層面規范其標準與權利范圍,實現AI的合規和可控。

    基于分布式技術的強AI時代藍圖

    理查德·費曼(Richard Feynman)在1985年的一次講座中第一次提出了“強人工智能”的概念,為我們描繪了一個全知全能的AI時代。后世人們不斷討論這個概念,但對強AI的具體定義和未來圖景眾說紛紜。斯蒂芬·霍金將強AI稱為對人類的最大威脅,馬斯克稱研究強AI就是在“召喚魔鬼”,但人類仍然對它趨之若鶩。有人說是因為結束人工智能研究則意味著放棄了改善人類狀況的機會,也就是使人類文明更加美好或者維持下去的機會。那么如果采用了區塊鏈技術,強AI時代藍圖會有什么不同?

    強AI時代不是指一個全知全能的AI出現,而是無數個AI的產業大繁榮。區塊鏈使產業高度去中心化,每一個個人都可以同時成為模型的使用者和訓練方。每一個模型都擁有自己的數字身份,高度智能也相互獨立。模型的使用場景高度細化,使用方式由智能合約定義。

    強AI時代模型訓練成本極低而迭代速度極快。通過去中心化網絡串聯模型全生命周期參與方,數據使用效率達到極致。在很多業務場景,模型可以根據實時業務需求實現毫秒級生成和毫秒級迭代,一次性模型成為可能,“模型流”成為模型主流應用方式。

    強AI時代控制權通過數據綁定在人類手中。Web3實現數據自主擁有,AI可以自迭代算法,但數據所有權牢牢掌握在人類手中。“AI控制人類”的末世傳說不會實現。

    關鍵詞:

    責任編輯:sdnew003

    相關新聞

    版權與免責聲明:

    1 本網注明“來源:×××”(非商業周刊網)的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。

    2 在本網的新聞頁面或BBS上進行跟帖或發表言論者,文責自負。

    3 相關信息并未經過本網站證實,不對您構成任何投資建議,據此操作,風險自擔。

    4 如涉及作品內容、版權等其它問題,請在30日內同本網聯系。