區(qū)塊鏈?zhǔn)情_啟人工智能大時(shí)代的關(guān)鍵變量|當(dāng)前熱門

    來源: ZAKER科技2023-06-27 13:19:44
      

    AI 大模型時(shí)代或已走向終局,前路未知

    2022 年 11 月 30 日,人工智能公司 OpenAI 推出了 AI 聊天機(jī)器人 ChatGPT,在短短兩個(gè)月的時(shí)間里,活躍用戶數(shù)突破一億,成為史上用戶數(shù)增長最快的消費(fèi)級(jí)應(yīng)用。ChatGPT 成功背后是 OpenAI 訓(xùn)練的 1750 億參數(shù)模型 GPT-3。一時(shí)間 AI 大模型迅速成為時(shí)代焦點(diǎn),微軟百億美元投資 OpenAI,谷歌、特斯拉、百度、阿里、小米等國內(nèi)外互聯(lián)網(wǎng)巨頭在幾個(gè)月的時(shí)間內(nèi)紛紛推出自己的 AI 大模型,OpenAI 迅速迭代出 GPT-4,幾乎每個(gè)月都至少有一家科技大公司入局訓(xùn)練大模型,人工智能成為當(dāng)前最炙手可熱的賽道。


    (資料圖片僅供參考)

    然而就在這樣一個(gè)市場狂歡、科技巨頭紛紛 " 走火入模 " 的時(shí)刻,AI 大模型的領(lǐng)軍者,OpenAI,卻給市場澆了一盆冷水。2023 年 4 月 18 日在麻省理工學(xué)院的活動(dòng)中,OpenAI 的 CEO Sam Altman 在演講中警告稱:"我們已經(jīng)處在大模型時(shí)代的尾聲",并表示如今的 AIGC 發(fā)展中,將數(shù)據(jù)模型進(jìn)一步做大,塞進(jìn)更多數(shù)據(jù)的方式,已經(jīng)是目前人工智能發(fā)展中最后一項(xiàng)重大進(jìn)展,并且還聲稱目前還不清楚未來的發(fā)展方向何去何從。

    如果拋開過熱的市場預(yù)期和浮躁的跟風(fēng)模仿去分析問題的本質(zhì),Altman 對(duì)未來 AI 的發(fā)展方向是清晰而準(zhǔn)確的。其說法側(cè)面道出了 OpenAI 乃至整個(gè) AI 賽道參與者目前所面臨的現(xiàn)實(shí)困境:

    1. 可用數(shù)據(jù)枯竭帶來的數(shù)據(jù)瓶頸

    OpenAI 最早的語言模式是 GPT-2,于 2019 年公布,發(fā)布時(shí)就有 15 億參數(shù),此后隨著 OpenAI 研究人員發(fā)現(xiàn)擴(kuò)大模型參數(shù)數(shù)量能有效提升模型完善程度,真正引爆 AI 行業(yè)浪潮的 GPT-3.5 發(fā)布時(shí),參數(shù)數(shù)量已經(jīng)達(dá)到了 1750 億。但人類互聯(lián)網(wǎng)歷史上被保留下來的各種高質(zhì)量語料,已經(jīng)在 GPT-3 以及后續(xù)發(fā)布的 GPT-4 的學(xué)習(xí)中被消耗殆盡。大模型參數(shù)數(shù)量仍然可以繼續(xù)膨脹下去,但對(duì)應(yīng)數(shù)量的高質(zhì)量數(shù)據(jù)卻越來越稀缺,因此增長參數(shù)數(shù)量帶來的邊際效益愈發(fā)降低。

    2. 算力爆炸導(dǎo)致邊際收益遞減帶來的經(jīng)濟(jì)效益瓶頸

    AI 三大核心要素是數(shù)據(jù)、算法和算力,而算力的發(fā)展是最為迅速的一環(huán)。2020 年 OpenAI 就發(fā)布分析報(bào)告,從 2012 年開始,AI 訓(xùn)練所用的計(jì)算量呈現(xiàn)指數(shù)增長,平均每 3.43 個(gè)月便會(huì)翻倍,遠(yuǎn)高于摩爾定律的 18 個(gè)月翻倍的速度。大模型正是在這一背景下誕生的。依托飛速發(fā)展的算力,簡單粗暴地堆砌參數(shù)是提升模型能效的捷徑。機(jī)器學(xué)習(xí)先驅(qū) Richard S. Sutton 著名的文章《苦澀的教訓(xùn)》里開篇就曾說道:"70 年的人工智能研究史告訴我們,充分利用計(jì)算能力的一般方法最終是最有效的方法。"OpenAI 秉承這一簡單甚至原始的理念,3 年內(nèi)將模型參數(shù)從 15 億(在當(dāng)時(shí)這已經(jīng)是一個(gè)天文數(shù)字)提高到 1750 億,足足拉高了 116 倍。

    參數(shù)的爆炸式增長帶來的直接后果就是模型成本的指數(shù)級(jí)上升。2019 年以前,人工智能還是個(gè)百家爭鳴的大眾賽道,而大模型帶來的投入成本門檻迅速把這個(gè)賽道變成了資本聚集、大廠統(tǒng)治的游戲。據(jù)業(yè)界估計(jì),GPT-3 僅訓(xùn)練一次的費(fèi)用就高達(dá) 500 萬美元,行業(yè)估計(jì) GPT-4 的研發(fā)加運(yùn)營成本突破數(shù)億美元。

    在如此高昂的成本之下,AI 如何商業(yè)化落地成為業(yè)界難題。盡管 GPT-4 已經(jīng)表現(xiàn)出了較高的智能化水平,但其局限性也很明顯。支持大規(guī)模商業(yè)化應(yīng)用所需要的是 GPT-X,即模型的場景化和快速更新。面對(duì)極度高昂的訓(xùn)練成本,難以形成充分的市場化競爭,類似 OpenAI 這樣的市場寡頭也面臨投入成本邊際效應(yīng)遞減嚴(yán)重的問題,缺乏持續(xù)研發(fā)迭代的經(jīng)濟(jì)激勵(lì)。這正是 Altman 所說的 " 大模型已至終局 " 而前路未知的根本原因。

    3. 數(shù)據(jù)合規(guī)、隱私保護(hù)、AI 倫理層面的風(fēng)險(xiǎn)不確定

    AI 的道德風(fēng)險(xiǎn)始終是行業(yè)發(fā)展中不可規(guī)避的話題。在 GPT-4 發(fā)布幾日內(nèi),特斯拉首席執(zhí)行官埃隆 · 馬斯克在內(nèi)的 1748 人簽署公開信,呼吁暫停訓(xùn)練比 GPT-4 更強(qiáng)大的人工智能系統(tǒng)至少 6 個(gè)月,以評(píng)估潛在的 AI 道德風(fēng)險(xiǎn)。與此同時(shí),專注于人工智能技術(shù)倫理的 AI 和數(shù)字政策中心(CAIDP)要求美國聯(lián)邦貿(mào)易委員會(huì)(FTC)調(diào)查 OpenAI 是否違反了消費(fèi)者保護(hù)規(guī)則,認(rèn)為其推出的 AI 文本生成工具 " 存在偏見、具有欺騙性,并且對(duì)公共安全構(gòu)成風(fēng)險(xiǎn) "。3 月 31 日,意大利國家隱私監(jiān)管機(jī)構(gòu)正式下令封禁 ChatGPT,并指控 OpenAI「非法收集個(gè)人數(shù)據(jù)」。值得注意的是,該「臨時(shí)禁令」將一直生效,直到 OpenAI 能夠尊重歐盟具有里程碑意義的隱私法——通用數(shù)據(jù)保護(hù)條例(GDPR)

    基于價(jià)值互聯(lián)網(wǎng)的 AI 新時(shí)代三范式

    當(dāng)一項(xiàng)顛覆性技術(shù)陷入瓶頸期時(shí),往往需要另一項(xiàng)更加具有顛覆性的技術(shù)的介入來突破瓶頸。區(qū)塊鏈技術(shù)和人工智能作為 21 世紀(jì)數(shù)字化技術(shù)突破的代表,一直處于平行發(fā)展但偶爾交叉的狀態(tài)。關(guān)于區(qū)塊鏈與人工智能的結(jié)合業(yè)界多有討論,但大多只停留在表層,例如區(qū)塊鏈為 AI 提供分布式數(shù)據(jù)治理,AI 為區(qū)塊鏈提供智能化自動(dòng)執(zhí)行工具。但隨著兩項(xiàng)技術(shù)的快速迭代發(fā)展,各自領(lǐng)域均不斷涌現(xiàn)出突破性應(yīng)用,二者結(jié)合所帶來的想象空間其實(shí)是被遠(yuǎn)遠(yuǎn)低估的。

    在應(yīng)用層面,區(qū)塊鏈技術(shù)發(fā)展的速度要遠(yuǎn)遠(yuǎn)領(lǐng)先于人工智能。它所創(chuàng)造出的最輝煌應(yīng)用,就是 Web3。

    Web3 是下一代價(jià)值互聯(lián)網(wǎng)由區(qū)塊鏈特有的激勵(lì)機(jī)制打造的數(shù)字資產(chǎn)應(yīng)用為 Web3 賦予萬億美元經(jīng)濟(jì)價(jià)值,成為數(shù)字時(shí)代的新經(jīng)濟(jì)體。Web3 是數(shù)據(jù)所有權(quán)的變革,而數(shù)據(jù)要素是 AI 的核心生產(chǎn)力。這一內(nèi)生聯(lián)系使區(qū)塊鏈和人工智能產(chǎn)生了巨大的交互空間,而這交互的核心就是數(shù)據(jù)要素化。

    數(shù)據(jù)要素化包含確權(quán)、加工和共享三個(gè)核心環(huán)節(jié),在數(shù)據(jù)確權(quán)層面,區(qū)塊鏈提供用戶與建設(shè)者擁有并信任的互聯(lián)網(wǎng)基礎(chǔ)設(shè)施;在數(shù)據(jù)加工層面,區(qū)塊鏈構(gòu)建安全可信的價(jià)值互聯(lián)網(wǎng);在數(shù)據(jù)共享層面,區(qū)塊鏈創(chuàng)造用戶與建設(shè)者共建共享的新型經(jīng)濟(jì)系統(tǒng)。以數(shù)據(jù)為核心,區(qū)塊鏈可為 AI 發(fā)展提供技術(shù)底座、經(jīng)濟(jì)模型和商業(yè)化場景。在此我們提出基于價(jià)值互聯(lián)網(wǎng)的 AI 新時(shí)代三范式

    (一)支撐 AI 生產(chǎn)力的是去中心化數(shù)據(jù)基礎(chǔ)設(shè)施

    數(shù)據(jù)是數(shù)字時(shí)代的生產(chǎn)要素,也是 AI 的核心生產(chǎn)力。OpenAI 發(fā)布 ChatGPT 之后,百度迅速發(fā)布 " 文心一言 ",但對(duì)比之下效果卻不甚理想。很多人說原因是 GPT 的語料庫是全球互聯(lián)網(wǎng),而 " 文心一言 " 的是百度知道和百度貼吧。這當(dāng)然是言過其實(shí)的調(diào)侃,但深思其背后的邏輯卻是成立的,即大模型的成功依賴于數(shù)據(jù)來源的廣度和開放度。僅從一兩個(gè)平臺(tái)獲取數(shù)據(jù)進(jìn)行訓(xùn)練,必然只會(huì)做出有 " 偏見 " 的模型。

    ChatGPT 在這一點(diǎn)上做得很好,依靠互聯(lián)網(wǎng)的開放度盡可能多地收集了數(shù)據(jù),但其主要來源仍然是中心化的數(shù)據(jù)平臺(tái),這也是 Web2 互聯(lián)網(wǎng)范式下的數(shù)據(jù)困境,它會(huì)在數(shù)據(jù)應(yīng)用層面帶來兩大問題:

    1. 數(shù)據(jù)源枯竭

    依賴中心化平臺(tái)所產(chǎn)生的數(shù)據(jù)無法保證有穩(wěn)定持續(xù)的數(shù)據(jù)源來訓(xùn)練升級(jí)模型。Altman 提到的互聯(lián)網(wǎng)語料已被 GPT 窮盡只是問題的冰山一角。更嚴(yán)重的問題是,缺少數(shù)據(jù)激勵(lì)會(huì)導(dǎo)致新的優(yōu)質(zhì)數(shù)據(jù)越來越少,甚至出現(xiàn) AI 無數(shù)據(jù)可用的問題。

    讓我們想象這樣一個(gè)場景。如果說 ChatGPT 逐漸完善成為唯一的知識(shí)平臺(tái),Quora、Stackoverflow、知乎等一眾知識(shí)平臺(tái)必將失去生存空間,而它們卻又是 ChatGPT 訓(xùn)練的主要數(shù)據(jù)來源,那未來的 ChatGPT 又要用什么數(shù)據(jù)來訓(xùn)練呢?

    2. 數(shù)據(jù)質(zhì)量低下

    對(duì)于 AI 來說,平臺(tái)有自己的應(yīng)用場景,不會(huì)考慮 AI 訓(xùn)練的需求。平臺(tái)不會(huì)對(duì)所謂的 " 數(shù)據(jù)質(zhì)量 " 做審核,例如知乎上分享的不一定是知識(shí),也可能是剛編的故事。同時(shí)根據(jù)不同平臺(tái)的使用人群不同還會(huì)產(chǎn)生內(nèi)容偏見。這也是為什么 ChatGPT 經(jīng)常會(huì)給出一些明顯錯(cuò)誤甚至荒謬的回答。

    以上問題的核心是平臺(tái)數(shù)據(jù)并沒有完成數(shù)據(jù)要素化。用戶作為數(shù)據(jù)的生產(chǎn)者無法對(duì)數(shù)據(jù)進(jìn)行確權(quán),導(dǎo)致數(shù)據(jù)全部歸平臺(tái)所有;平臺(tái)作為數(shù)據(jù)的加工者缺乏激勵(lì),不會(huì)對(duì)數(shù)據(jù)進(jìn)行應(yīng)有的加工;模型公司作為數(shù)據(jù)的使用者與數(shù)據(jù)生產(chǎn)加工環(huán)節(jié)嚴(yán)重割裂。而去中心化數(shù)據(jù)基礎(chǔ)設(shè)施正是這些問題的解決方案。

    《區(qū)塊鏈托管重塑數(shù)據(jù)要素權(quán)益分配機(jī)制》一文中,我們提到了 Web3 是數(shù)據(jù)要素革命,是數(shù)據(jù)主權(quán)的 " 還數(shù)于民 "。在 AI 新時(shí)代里,去中心化數(shù)據(jù)基礎(chǔ)設(shè)施將為 AI 模型提供全生命周期數(shù)據(jù)解決方案,包括:

    1)數(shù)據(jù)確權(quán):用戶數(shù)據(jù)通過自主數(shù)字身份確權(quán),數(shù)據(jù)生產(chǎn)者直接參與模型建設(shè)周期并獲得對(duì)等激勵(lì);

    2)數(shù)據(jù)加工:數(shù)據(jù)加工者(例如模型數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)量評(píng)價(jià))通過去中心化數(shù)據(jù)基礎(chǔ)設(shè)施參與模型建設(shè)并獲得對(duì)等激勵(lì);

    3)數(shù)據(jù)共享:數(shù)據(jù)生產(chǎn)者通過去中心化數(shù)據(jù)托管共享數(shù)據(jù)給數(shù)據(jù)使用者(例如建模公司),建模公司可以通過智能合約自動(dòng)化數(shù)據(jù)獲取和建模流程,實(shí)現(xiàn)快速模型升級(jí)。

    (二)支撐 AI 商業(yè)化的是 DataFi

    Web3 的成功在于區(qū)塊鏈技術(shù)所提供的優(yōu)秀激勵(lì)模型和可持續(xù)的經(jīng)濟(jì)系統(tǒng)。去中心化金融(DeFi)已經(jīng)創(chuàng)造出了繁榮的數(shù)字經(jīng)濟(jì)生態(tài)和萬億美元的市場價(jià)值,以數(shù)據(jù)資產(chǎn)為核心的數(shù)據(jù)金融(DataFi)將成為支撐 AI 商業(yè)化的全新商業(yè)模式。

    在 DataFi 中,數(shù)據(jù)作為生產(chǎn)要素會(huì)實(shí)現(xiàn)通證化。數(shù)據(jù)的產(chǎn)生、加工、存儲(chǔ)和使用都會(huì)依照去中心化經(jīng)濟(jì)模型自主產(chǎn)生或消耗數(shù)據(jù)資產(chǎn)通證。數(shù)據(jù)循環(huán)會(huì)被充分激勵(lì)并產(chǎn)生凈價(jià)值。AI 模型的全生命周期都會(huì)以一種更加分布式的形式呈現(xiàn),包括去中心化算力供應(yīng)商、去中心化數(shù)據(jù)標(biāo)注和基于去中心化數(shù)據(jù)基礎(chǔ)設(shè)施的數(shù)據(jù)托管服務(wù)商。模型訓(xùn)練不再具有高門檻。

    在 DataFi 中,數(shù)據(jù)通證會(huì)創(chuàng)造出以數(shù)據(jù)資產(chǎn)為核心的衍生品交易市場。AI 生態(tài)參與方可以充分挖掘自身的數(shù)據(jù)價(jià)值或服務(wù)價(jià)值,參與以數(shù)據(jù)資產(chǎn)為核心的金融衍生品交易、質(zhì)押、抵押貸款等創(chuàng)新金融服務(wù)。數(shù)據(jù)資產(chǎn)的使用效率得到充分釋放。

    (三)支撐 AI 規(guī)范性的是分布式數(shù)字身份

    除了上文提到的數(shù)據(jù)確權(quán),分布式數(shù)字身份也將成為支撐 AI 合規(guī)發(fā)展的關(guān)鍵監(jiān)管技術(shù)。分布式數(shù)字身份為用戶賦予了數(shù)據(jù)自主權(quán),打破數(shù)據(jù)控制者對(duì)數(shù)據(jù)的天然壟斷,也提升了用戶在算法面前的自主權(quán)。在 AI 新時(shí)代中,分布式數(shù)字身份包含三個(gè)主要應(yīng)用場景:

    1. 用戶分布式數(shù)字身份

    用戶通過分布式數(shù)字身份參與 AI 構(gòu)建周期,通過數(shù)據(jù)確權(quán)和自主數(shù)據(jù)主權(quán)保護(hù)數(shù)據(jù)隱私,并實(shí)現(xiàn)對(duì)等數(shù)據(jù)激勵(lì)。在合規(guī)層面,通過分布式數(shù)字身份為用戶提供了 100% 的數(shù)據(jù)主權(quán),用戶對(duì)自己的隱私數(shù)據(jù)擁有完全控制權(quán),能夠自主決定數(shù)據(jù)的披露對(duì)象和使用場景,并且結(jié)合零知識(shí)證明等技術(shù),實(shí)現(xiàn)最小化隱私披露,天然符合《數(shù)據(jù)安全法》《個(gè)保法》的相關(guān)規(guī)定。通過將個(gè)人作為數(shù)據(jù)共享的載體,是《個(gè)保法》中個(gè)人信息可攜帶權(quán)的體現(xiàn),結(jié)合自主身份使得個(gè)人數(shù)據(jù)可以遵從本人意愿向數(shù)據(jù)使用方(例如建模公司),嚴(yán)格符合 GDPR 等國際數(shù)據(jù)共享法律法規(guī)。

    2. 模型分布式數(shù)字身份

    在 AI 新時(shí)代中,模型獨(dú)立且唯一的數(shù)字身份。用戶可以通過數(shù)字身份像選擇商品一樣選擇模型,并且通過模型數(shù)字身份解決使用量證明、版權(quán)糾紛和版本管理等問題。

    3. 數(shù)字人和 AIGC 分布式數(shù)字身份

    對(duì)于 AI 構(gòu)建出來的實(shí)體(例如數(shù)字人)頒發(fā)唯一數(shù)字身份,并在法律層面規(guī)范其標(biāo)準(zhǔn)與權(quán)利范圍,實(shí)現(xiàn) AI 的合規(guī)和可控。

    基于分布式技術(shù)的強(qiáng) AI 時(shí)代藍(lán)圖

    理查德 · 費(fèi)曼(Richard Feynman)在 1985 年的一次講座中第一次提出了 " 強(qiáng)人工智能 " 的概念,為我們描繪了一個(gè)全知全能的 AI 時(shí)代。后世人們不斷討論這個(gè)概念,但對(duì)強(qiáng) AI 的具體定義和未來圖景眾說紛紜。斯蒂芬 · 霍金將強(qiáng) AI 稱為對(duì)人類的最大威脅,馬斯克稱研究強(qiáng) AI 就是在 " 召喚魔鬼 ",但人類仍然對(duì)它趨之若鶩。有人說是因?yàn)榻Y(jié)束人工智能研究則意味著放棄了改善人類狀況的機(jī)會(huì),也就是使人類文明更加美好或者維持下去的機(jī)會(huì)。那么如果采用了區(qū)塊鏈技術(shù),強(qiáng) AI 時(shí)代藍(lán)圖會(huì)有什么不同?

    強(qiáng) AI 時(shí)代不是指一個(gè)全知全能的 AI 出現(xiàn),而是無數(shù)個(gè) AI 的產(chǎn)業(yè)大繁榮。區(qū)塊鏈?zhǔn)巩a(chǎn)業(yè)高度去中心化,每一個(gè)個(gè)人都可以同時(shí)成為模型的使用者和訓(xùn)練方。每一個(gè)模型都擁有自己的數(shù)字身份,高度智能也相互獨(dú)立。模型的使用場景高度細(xì)化,使用方式由智能合約定義。

    強(qiáng) AI 時(shí)代模型訓(xùn)練成本極低而迭代速度極快。通過去中心化網(wǎng)絡(luò)串聯(lián)模型全生命周期參與方,數(shù)據(jù)使用效率達(dá)到極致。在很多業(yè)務(wù)場景,模型可以根據(jù)實(shí)時(shí)業(yè)務(wù)需求實(shí)現(xiàn)毫秒級(jí)生成和毫秒級(jí)迭代,一次性模型成為可能," 模型流 " 成為模型主流應(yīng)用方式。

    強(qiáng) AI 時(shí)代控制權(quán)通過數(shù)據(jù)綁定在人類手中。Web3 實(shí)現(xiàn)數(shù)據(jù)自主擁有,AI 可以自迭代算法,但數(shù)據(jù)所有權(quán)牢牢掌握在人類手中。"AI 控制人類 " 的末世傳說不會(huì)實(shí)現(xiàn)。

    本文系未央網(wǎng)專欄作者 :汪德嘉 發(fā)表,內(nèi)容屬作者個(gè)人觀點(diǎn),不代表網(wǎng)站觀點(diǎn),未經(jīng)許可嚴(yán)禁轉(zhuǎn)載,違者必究!

    關(guān)鍵詞:

    責(zé)任編輯:sdnew003

    相關(guān)新聞

    版權(quán)與免責(zé)聲明:

    1 本網(wǎng)注明“來源:×××”(非商業(yè)周刊網(wǎng))的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。

    2 在本網(wǎng)的新聞頁面或BBS上進(jìn)行跟帖或發(fā)表言論者,文責(zé)自負(fù)。

    3 相關(guān)信息并未經(jīng)過本網(wǎng)站證實(shí),不對(duì)您構(gòu)成任何投資建議,據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    4 如涉及作品內(nèi)容、版權(quán)等其它問題,請(qǐng)?jiān)?0日內(nèi)同本網(wǎng)聯(lián)系。