AI Agent:大模型與場(chǎng)景間的價(jià)值之橋,但不適合當(dāng)純技術(shù)看

    來(lái)源: 鈦媒體APP2023-08-23 02:50:49
      

    在開(kāi)源大模型LLaMA 2會(huì)扮演類似Android的角色么?一文中曾經(jīng)提到:大模型落地的方式是系統(tǒng)型超級(jí)應(yīng)用。但系統(tǒng)型超級(jí)應(yīng)用有點(diǎn)像被杜撰出來(lái)的一個(gè)詞,所以這次從AI Agent的角度來(lái)更加具體的描述下它。AI Agent非常關(guān)鍵,沒(méi)有它我們就無(wú)法擴(kuò)展大模型的應(yīng)用邊界,無(wú)法擴(kuò)展邊界我們就無(wú)法完成大模型的成功商業(yè)化,無(wú)法成功商業(yè)化AI可能就會(huì)再虧損十年。人工智能如果僅止于現(xiàn)在看到的內(nèi)容生成等幾項(xiàng)應(yīng)用,就還是單薄的。能不能把價(jià)值傳遞到更多的場(chǎng)景,核心就看AI Agent,所以我們說(shuō)AI Agent是大模型與場(chǎng)景間價(jià)值傳遞的橋梁。

    大模型是甕中之腦


    (資料圖)

    假如把人的腦子放到一個(gè)充滿營(yíng)養(yǎng)液的罐子里,讓它活下來(lái),那這時(shí)候它可以有一個(gè)超級(jí)真實(shí)的虛幻世界,但卻不再能干涉現(xiàn)實(shí)。這是《黑客帝國(guó)》,《源代碼》這類電影很關(guān)鍵的一個(gè)預(yù)設(shè)。

    現(xiàn)在的大模型就有點(diǎn)這意思。

    它有一定智力并且擁有大量知識(shí),但除了內(nèi)容生成這類通用能力,在別的領(lǐng)域還不清楚它到底能干什么?經(jīng)濟(jì)體系的主要部分是需要干涉現(xiàn)實(shí)的,所以大模型的這種智力優(yōu)勢(shì)就需要一個(gè)管道,讓它流淌出去和各個(gè)領(lǐng)域相結(jié)合,然后才才能真正創(chuàng)造更大的經(jīng)濟(jì)價(jià)值。

    真要和某個(gè)具體領(lǐng)域結(jié)合,孤立的大模型是不夠的,它既不知道這領(lǐng)域過(guò)去發(fā)生了什么,也不知道正在發(fā)生什么,甚至不知道自己要服務(wù)的對(duì)象是誰(shuí)...

    大模型內(nèi)置的幾個(gè)常用的功能,相當(dāng)于把領(lǐng)域相關(guān)的部分放到了模型的內(nèi)部,比如內(nèi)容生成,編寫(xiě)代碼等。問(wèn)題是現(xiàn)實(shí)世界的主要領(lǐng)域并不是這種孤立場(chǎng)景,而是和現(xiàn)實(shí)要進(jìn)行實(shí)時(shí)結(jié)合,所以根本放不到大模型里面去。

    我們可以把日常要處理的場(chǎng)景做個(gè)分類:

    一類是孤立的,斷續(xù)的場(chǎng)景。不管什么時(shí)候只要給個(gè)要求,它就給你一個(gè)特定輸出,和時(shí)空內(nèi)其它要素依賴不大,甚至地球毀不毀滅都和這個(gè)任務(wù)完成沒(méi)啥關(guān)系,比如:編程、下圍棋、內(nèi)容生成等。這部分其實(shí)很適合大模型內(nèi)置。有點(diǎn)像井打完了,什么時(shí)候用水,打一桶就得了。

    一類則是連續(xù)的,和周圍環(huán)境的變化鑲嵌在一起的的場(chǎng)景。這時(shí)候你如果不知道環(huán)境、歷史累積和前置條件,不管你智商怎么樣,你啥都干不了。就好比工廠流水線在生產(chǎn),突然扔一個(gè)博士過(guò)去,其實(shí)啥用也不頂。這有點(diǎn)像用水渠給水田灌水,水源通路都得整好,最終才有水。這部分沒(méi)法放大模型內(nèi)部。

    我們絕大多數(shù)場(chǎng)景,都是后一個(gè),不管是外賣、打車、企業(yè)經(jīng)營(yíng)等,所以才有個(gè)說(shuō)法叫世界萬(wàn)事萬(wàn)物是普遍關(guān)聯(lián)的。這也是過(guò)去的所謂專家系統(tǒng),用用就掛了的核心原因。

    甕中之腦解決前一個(gè)場(chǎng)景下的問(wèn)題相對(duì)容易,最傻的方法就是定期升級(jí)一下,但單獨(dú)的甕中之腦解決不了后一個(gè)場(chǎng)景里的問(wèn)題。現(xiàn)實(shí)里面,解決不了后一個(gè)問(wèn)題就解決不了核心場(chǎng)景,解決不了核心場(chǎng)景就很可能再虧10年。

    后一種場(chǎng)景的解決與否的關(guān)鍵在于AI Agent,所以我們說(shuō)AI Agent是大模型與場(chǎng)景間價(jià)值傳遞的橋梁

    AI Agent即系統(tǒng)型超級(jí)應(yīng)用

    AI Agent概念太新,資料太少,下面這張圖是OpenAI Lilian Wen個(gè)人博客上發(fā)的一張圖,被四處張貼。

    就像人工智能這樣的概念也得被反復(fù)打磨才能相對(duì)精準(zhǔn)一點(diǎn)。這圖能說(shuō)明AI Agent的一些關(guān)鍵點(diǎn),但也有相當(dāng)?shù)恼`導(dǎo)性。Agent的邊界畫(huà)窄了,內(nèi)外要素被混雜在一起了。也不適合用Tools來(lái)囊括所有外部的工具依賴。對(duì)情境的感知以及據(jù)此的行動(dòng)用工具囊括就混淆了它們的差別。

    下面這種總括的圖更容易看出來(lái)Agent的角色(和上面Lilian Wen那個(gè)Agent定義已經(jīng)不一樣的),但卻又錯(cuò)過(guò)了關(guān)鍵要素,比如感知和行動(dòng)到底是個(gè)啥。

    這類描述再加上AutoGPT這些開(kāi)源項(xiàng)目提供的各種接口定義,對(duì)于不是做這個(gè)的人很容易就把AI Agent理解成又一項(xiàng)純粹的技術(shù),但其實(shí)并不是。從技術(shù)的角度看真要這類Agent是需要對(duì)領(lǐng)域、對(duì)環(huán)境建模,因此一部分是新技術(shù),但更關(guān)鍵的是從應(yīng)用上看,它要在一個(gè)場(chǎng)景下徹底搞定一個(gè)業(yè)務(wù),它的含義和滴滴、美團(tuán)外賣APP是一樣的。(反映的正好是橋的屬性,兩頭看風(fēng)景是不一樣的)

    那我們到底應(yīng)該怎么理解AI Agent和它的特征呢?

    第一,可以重用通行定義,基于感知進(jìn)行智能判斷并采取行動(dòng)。(陸奇的大模型世界觀說(shuō)的也是這個(gè))

    Faiza Waseem,What is agent in ai ! Types of agents in artificial intelligence

    為達(dá)成這目的需要和IoT、現(xiàn)有各種系統(tǒng)做深度結(jié)合,不可能是Lilian Wen上面那圖里的簡(jiǎn)單工具的概念。而感知范圍大小事實(shí)上也定義了AI Agent的范圍。

    比如招聘場(chǎng)景要感知的就是公司最終需求崗位的描述和招聘平臺(tái)上的候選人,行動(dòng)則是要能與候選人溝通,能辦理入職等。

    比如中央空調(diào)的場(chǎng)景感知的就是氣候、用量、當(dāng)前溫度等,行動(dòng)則是空調(diào)溫度控制等。

    第二,要有價(jià)值序列的初始化。

    這不是感知問(wèn)題,比如什么是對(duì)的,什么是錯(cuò)的,在關(guān)鍵沖突的時(shí)候那個(gè)更重要等,比如還是中央空調(diào)的場(chǎng)景,用電量是不是可以無(wú)限飆升,還是說(shuō)到某個(gè)限度就必須停下來(lái),再比如招聘的時(shí)候?qū)σ粓?chǎng)危機(jī)的看法等。

    這不是感知,而是原則,是絕對(duì)必須的輸入,但似乎很少被提及。

    第三,三個(gè)核心輸入輸出上都要接受變化。

    這是產(chǎn)品化帶來(lái)的衍生要求。

    感知和行動(dòng)的風(fēng)格肯定要根據(jù)不同的公司要有微調(diào),比如同樣是招聘的Agent,不可能期望用感知、行動(dòng)和價(jià)值序列都固定的產(chǎn)品解決所有公司的問(wèn)題。這種需求最終必會(huì)導(dǎo)致應(yīng)用商店和標(biāo)準(zhǔn)化的API接口。只有這樣才能把大模型的通用能力投射出來(lái)。否則就有點(diǎn)像子彈是圓形,但槍管是方形的,互相耽誤。

    第四,算法會(huì)是一組算法的組合。不可能就是大模型,其它模式識(shí)別類的算法估計(jì)一個(gè)也少不了。并且這些算法要集中提供。這就會(huì)導(dǎo)致大模型、其它算法、領(lǐng)域模型、記憶、規(guī)劃能力形成一套新的內(nèi)核。這種內(nèi)核要有通用性,否則一個(gè)是不匹配大模型的通用能力,一個(gè)是你也沒(méi)法真的產(chǎn)品化并給人用。

    大模型能力已經(jīng)通用化了,再配上通用的結(jié)構(gòu),這種通用能力就能夠徹底發(fā)揮,相當(dāng)于給甕中之腦加了一個(gè)終結(jié)者的身體。

    把這些要素都體現(xiàn)出來(lái)AI Agent典型結(jié)構(gòu)會(huì)這樣:

    這圖是我原創(chuàng),不一定對(duì),轉(zhuǎn)載著名出處。

    這是什么呢?

    這就是系統(tǒng)型超級(jí)應(yīng)用,所以說(shuō)AI Agent即系統(tǒng)型超級(jí)應(yīng)用。

    它解決具體問(wèn)題所以是個(gè)應(yīng)用,但具有通用性,而達(dá)成通用性的手段其實(shí)和過(guò)去的操作系統(tǒng)非常類似,并且以大模型為根基。

    那這種Agent會(huì)有幾種?

    從西部世界類的元宇宙Agent到具身智能全是Agent。

    Agent會(huì)有很多種,但可以細(xì)分。

    最基礎(chǔ)的和來(lái)的最快的應(yīng)該是純數(shù)字,無(wú)場(chǎng)景或者場(chǎng)景極為單薄的AI Agent。

    統(tǒng)一用個(gè)詞就是元宇宙型的Agent,谷歌和斯坦福要干的現(xiàn)實(shí)版西部世界就是這類。如果放在游戲里就是元宇宙里的智能NPC。這類Agent最大的建設(shè)性在于給元宇宙注入生氣,最大的破壞性則在于對(duì)上古社區(qū)的影響可能不咋正向,包括抖音。

    第二種Agent則要與現(xiàn)實(shí)場(chǎng)景結(jié)合,可能是純粹數(shù)字的,也可能不是。比如招聘、營(yíng)銷、空調(diào)管理、運(yùn)維狀態(tài)監(jiān)控等。

    第三種則是具身機(jī)器人。和上一種的區(qū)別是,這種完全控制自己的一套外設(shè),上一個(gè)則更多的是一種粘合。

    這三類都會(huì)解決連續(xù)運(yùn)轉(zhuǎn)場(chǎng)景問(wèn)題,只不過(guò)后兩個(gè)在現(xiàn)實(shí)世界使勁,第一個(gè)在虛擬世界使勁。

    上面這個(gè)排序也就是我理解的發(fā)生順序,AI Agent如果有浪潮,那很可能是這么一個(gè)遞進(jìn)次序。

    大模型和AI Agent的關(guān)系

    簡(jiǎn)單形容這就是發(fā)動(dòng)機(jī)和汽車的關(guān)系。

    大模型很關(guān)鍵,沒(méi)有大模型就不可能打造AI Agent。可就像雖然沒(méi)有發(fā)動(dòng)機(jī)就沒(méi)有汽車,但發(fā)動(dòng)機(jī)成本也就占汽車的不到五分之一。

    同時(shí),外面很可能需要有一個(gè)專門針對(duì)領(lǐng)域的模型,否則Planning工作沒(méi)法做。即使基于記憶和感知,如果這地兒沒(méi)有一個(gè)模型和通用大模型進(jìn)行交互而是固定很多規(guī)則,那這次大模型的通用能力就被阻塞了。

    所以、垂域大模型,很可能是雙模型結(jié)構(gòu)(多模型)。

    雙模型(多模型)結(jié)構(gòu)再加上系統(tǒng)架構(gòu)有可能是未來(lái)AI Agent的典型技術(shù)特征。

    AI Agent的價(jià)值創(chuàng)造機(jī)制和潛在商業(yè)模式

    AI Agent的衡量標(biāo)準(zhǔn)不是單維度的技術(shù)指標(biāo),而是綜合場(chǎng)景的覆蓋度和完成度。得能完成下面這類活,AI Agent才真算做好了,不要去參加考試比賽什么的了:

    1. 給你個(gè)企業(yè)和啟動(dòng)資金么,你能把錢賺回來(lái)么?(終極)

    2. 給你個(gè)機(jī)房,你能夠最優(yōu)化成本來(lái)運(yùn)營(yíng)他么?

    3. 給你招聘需求,招聘平臺(tái)賬號(hào),你能把人招來(lái)入職么?

    4. 給你個(gè)視頻號(hào),你能夠把它運(yùn)作成個(gè)大號(hào)么?

    下面跑遠(yuǎn)一點(diǎn),AI Agent普及后,會(huì)有什么樣的沖擊?

    Agent化后,會(huì)怎么樣?

    很多事會(huì)非常不一樣。

    第一這是一個(gè)依賴倒置的世界。現(xiàn)實(shí)更關(guān)鍵,但把手在數(shù)字空間。

    第二反身性等數(shù)字類特征會(huì)越來(lái)越明顯。

    第三現(xiàn)有經(jīng)濟(jì)體系估計(jì)會(huì)無(wú)法維持。那時(shí)候有足夠的能力構(gòu)建一種邊際效能更高的體系,但具體什么樣,我們還不知道。從這個(gè)角度確實(shí)需要智能經(jīng)濟(jì)學(xué)。大師們比較嚴(yán)謹(jǐn),估計(jì)不愿意寫(xiě),那天我肯定瞎寫(xiě)一個(gè)。

    第三文化會(huì)和現(xiàn)在不一樣。一個(gè)人只解決人和人關(guān)系的社會(huì)和一個(gè)同時(shí)需要考慮人和AI Agent關(guān)系的社會(huì),文化怎么可能一樣!

    在這樣的一個(gè)世界里分配會(huì)比生產(chǎn)關(guān)鍵,分配決定了生產(chǎn)的內(nèi)容和生產(chǎn)是否可以持續(xù)。

    小結(jié)

    AI Agent的話題有趣之處在于:沒(méi)有它就又卡住了,人工智能會(huì)再磨嘰很長(zhǎng)時(shí)間。但如果它真的被跨過(guò)了,但很多問(wèn)題就只能回到原點(diǎn),然后單開(kāi)一條時(shí)間線才能找到答案。如果非把AI從業(yè)者分層,那一層是干大模型的,相當(dāng)于干發(fā)動(dòng)機(jī)的;一層則是干汽車的,就是干AI Agent的。在過(guò)去大部分汽車廠商規(guī)模是比發(fā)動(dòng)機(jī)廠商還大的,這次不知道會(huì)如何。

    關(guān)鍵詞:

    責(zé)任編輯:sdnew003

    相關(guān)新聞

    版權(quán)與免責(zé)聲明:

    1 本網(wǎng)注明“來(lái)源:×××”(非商業(yè)周刊網(wǎng))的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。

    2 在本網(wǎng)的新聞頁(yè)面或BBS上進(jìn)行跟帖或發(fā)表言論者,文責(zé)自負(fù)。

    3 相關(guān)信息并未經(jīng)過(guò)本網(wǎng)站證實(shí),不對(duì)您構(gòu)成任何投資建議,據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    4 如涉及作品內(nèi)容、版權(quán)等其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)同本網(wǎng)聯(lián)系。