AI 大模型降溫了?資本表示還沒到時候 當前要聞

    來源: ZAKER科技2023-06-28 20:23:48
      

    隨著 ChatGPT 火遍全球,國內科技圈也打響了 " 千模大戰 ",不同場景、語言、行業的 AI 大模型層出不窮,產品形態覆蓋移動端與 PC 端。資本也久違地捕捉到了類似 10 年前移動互聯網曾帶來的變革機遇,單筆融資規模動輒破億美元,不斷刷新獨角獸的誕生周期……

    當前,國內生成式 AI 創業與產品研發熱火朝天,互聯網和云服務大廠、傳統 AI 企業、高校及科研機構、大數據及算力提供商紛紛入局。幾十上百家公司喊出 " 夢之隊 " 的口號,誓要成為中國版的 OpenAI,造出自己的 ChatGPT。

    據不完全統計,在已持續 4 個多月的大模型創業狂潮中,多達 60 款類 GPT 大模型已經或即將面世。除了擁有深厚技術積淀與資金實力的大廠以各自的產品吊足觀眾胃口,眾多大廠高管與互聯網老兵的躬身下場也讓這場軍備競賽具備了更多看點:一方面,騰訊、華為、京東、螞蟻等巨頭系大模型布局繼續加碼;另一方面,百川智能等來自創業公司隊伍的生成式 AI 探索也已取得初步成果


    (資料圖片僅供參考)

    生成式 AI 時代,不同技術場景中的底層技術變量將帶來怎樣的價值,其中蘊含著怎樣的創業機會,又包含哪些成功的要素與難點?動點科技收集了來自風投與相關創業公司基于實戰的洞見以饗讀者。

    底層基礎變量啟動系統創新

    從 Stable Diffusion 的開源到 ChatGPT 的問世,生成式 AI 在各個領域的范式迭代已成為共識,AIGC 可謂是想象力加生產工具的雙重組合。通過多輪交互,用戶與模型的交互深度已大幅度增加,新型的交互形式的引入大大降低了技術的交互成本,可謂是小樣本大智能。

    金沙江創投主管合伙人張予彤認為,其中底層的變化主要在于計算成本與推理成本。

    正如神經網絡隨著算力的發展愈發深度,大模型的不斷調優與迭代也依賴著算力的提升。據報道,作為一個萬億參數的模型,GPT-4 是用 2 萬張英偉達 A100 顯卡進行 8 個月訓練的結果。未來若達到英偉達 H100 芯片等更高級別的算力,其耗費的顯卡數量將會明顯降低。因為萬卡的階段已經給運維帶來了很大壓力,每小時都需要至少重啟一張顯卡。面對這種瓶頸,純粹的規模化給模型帶來的增益將呈現遞減趨勢。只有底層算力的提升才能推動數據處理能力的攀升并進而提高訓練數據的規模。

    效果驚艷的模型問世之后,從業者也不得不開始關注模型的推理成本。今天,ChatGPT 在下游廣泛的通用任務中都有較好的表現,并由此開啟了大量的推理應用,未來有望從云端拓展至 H 端、移動端,并降低技術成本使之適配更多的商業場景。

    2014 年起,五源資本開始投資于深度學習類 AI 賽道。五源資本合伙人劉凱認為,今天的這一波 AI 創新與十年前的區別主要在于,十年前的創新主要是由 AI 教父辛頓等人帶動的點狀創新,推動了行業的發展并快速商業化。而今天以OpenAI 為代表的創新其實是一種系統化的創新,在多個維度上發生了快速的迭代與突破。

    點狀創新會很快在點上收斂,對應的結果就是其他層面的同質化內卷,例如不同企業高度雷同的 CV 與 NLP 客服產品。而如今的 GPT4 從底層模型機制到上層應用的 prompt,借助了很多成熟的 infra 公司,與開源界關系密切,帶來了大量的開源者,包含了大量的數據集。

    也有創投人士擔憂這一次的 AI 創新是否也會如十年前那樣,先帶來很高的期待而后繼乏力。對此,劉凱表示,不必有此擔憂,因為 ChatGPT 將重心放在生態建設,更多地促使用戶去使用 API 這種難以計算用戶時長的端口。并且,后者也更著眼于生態創新,從各個方面吸引與籠絡開發者和用戶,ChatGPT 以及相關的 AI 大模型還遠沒到降溫的時候。

    落地前:層層壁壘與重重挑戰

    從生產力工具到交互形式再到交付成本,這一輪 AI 創新帶來了不可忽視的變革,而這種影響還將隨著技術的逐步落地被繼續放大。而在此過程中,AI 大模型的落地還存在一些壁壘與挑戰。

    面壁智能 CEO 李大海認為,訓練一個小型預訓練模型并沒有太大難度,這也是國內會出現 " 千模大戰 " 底層原因之一,真正的難度在于要真正做出一個性能達到當前 GPT4 甚至更高水準的模型。他分享了 AI 大模型在預訓練階段的一些有待突破的壁壘,主要包括算力、數據、訓練難度以及對 infra 的要求。

    訓練一個 GPT3.5 水平的模型至少需要 1000 張英偉達 A100 或 H800 顯卡,其背后成本十分高昂,而隨著模型參數規模的上升,其試錯成本也水漲船高,并需要海量的、包含多模態數據的支撐。同時,雖然行業已逐步沉淀出一些訓練的方法論,但仍無法避免梯度爆炸等系統性問題的產生,這對于 AI 訓練工程師快速排查問題的能力提出了極高的要求。如何讓 infra 能夠更好地與模型結合,更好地容錯,也是一個很高的門檻。

    此外,效果與成本的平衡、安全可控也是大模型落地的挑戰所在。基于 Transformer 的大模型已實現了很大的突破,但 Transformer 架構的大模型是否能達到 AGI 的水平還是個未知數。如果沒有更高效的架構出現,成本將限制我們對于大模型性能的追求。在復雜分裂的文化背景下,如何保證模型的可控性并使之在一個地區進行有效的商業化落地,已成為比技術更令人頭疼的問題。

    關于 AI 大模型在工具鏈層的挑戰,潞晨科技創始人尤洋教授表示,下層的 GPU 硬件等基礎設施決定了上層的處理方法,而上層的方法反之也將產生更深遠的影響。當前訓練大模型使用的 Adam 優化器本質屬于非凸優化,難以找到全局最優解,現在收斂到的只是一些局部最優點。

    "AI 模型是不是越大越好,參數量達到 5000 億、6000 億乃至 7000 億、8000 億之后會不會產生瓶頸?這些都還無法從科學角度進行驗證。神經網絡模型也是一個非凸函數,當全球計算機理論學科最優的普林斯頓大學教授都無法證明 5 層神經網絡的多點性,遑論比較 500 億參數與 5000 億參數大模型的優劣。" 即便是 OpenAI 也只是在進行一些實驗性的探索,沒有人能夠證明千億級參數的大模型是否一定優于百億級。

    尤洋相信,未來隨著計算范式變革,將出現比 Adam 優化器快成千上萬倍的選擇,并帶來成本的大幅度下降,以至于用幾十個服務器訓練一兩周就能達到今天 GPT4 的效果。

    Gonex CEO 溫夢飛觀察到,當下很多 AI 大模型在應用層提供的解決方面較為表面、容錯率較低且不受控。例如一些聊天機器人沒有對對話內容進行任何分析處理,這在行業中是不可接受的,因為在給定的流程與場景下,不能讓模型無限制地生成內容。

    基于 Gonex 進行的一些早期研究,大模型的產業應用主要有兩方面的挑戰,一是缺乏商業化的 PMF,大多數現有的模型應用沒有解決實際的問題,因此也沒有付費的空間。這涉及對流程的再造以及商業場景的適配,國內尚未找到對應的完整體系與標準;二是很多的模型應用還是比較薄,體現沒有整理出自己的行業 know-how,僅靠模型自身進行迭代行業數據它沒有整理出來,以及純線上的交付無法體現服務的能力。

    溫夢飛認為大模型的行業應用要從三個方向考慮,抽象提煉自己的行業 know-how,增加獨有的交付方式,和以自身模型的邏輯、意圖識別、流程再造去解決實際問題。

    工具鏈與商業生態演變路徑

    在大模型創業的成功要素中,算法、算力、數據、資本的重要性顯而易見,而生態這一要素也正隨著技術范式的變化發生改變。MLOps(機器學習運維)是 AI 掘金時代的 " 鏟子 ",從模型到生產應用全面助力著 AI 模型的落地生花。

    劉凱發現,不同于上一代 Machine Learning 的模式能力,即依托強化學習去做一些預測性的應用,例如電商平臺的商品推薦及短視頻平臺的內容推薦。這一代的生成AI 解決的是完全不一樣的問題,它對數據的理解使用環節都非常不同具備了以前所有的軟件公司都不具備的能力。他相信,這一代新的范式將孕育很多新的工具和新的公司。

    除了工具鏈生態的變化,大模型的商業生態也發生著劇變,例如在文生圖領域,Stable Diffusion 和 Midjourney 進行著拉鋸戰,在語言模型領域,LLaMA 等項目遍地開花,幾乎人手一個大模型。

    對此,張予彤認為文生圖模型與大語言模型的差異不僅在于模態的區別,更重要的是文字可能是人類總結與傳播知識的首選媒介,人類的通用知識與常識通常也留存在語言文字中。正如在 CV 領域的 Killer App 屈指可數,因此,大語言模型在未來仍然是不可忽略的。

    未來,大模型還將向文生視頻的方向發展,例如 Midjourney 的 5.2 版本也推出了一個可以無限 zoom out 的功能。但隨著大模型模態和信息的升維其理解人類通識的能力也將成為技術的關鍵點

    關鍵詞:

    責任編輯:sdnew003

    相關新聞

    版權與免責聲明:

    1 本網注明“來源:×××”(非商業周刊網)的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。

    2 在本網的新聞頁面或BBS上進行跟帖或發表言論者,文責自負。

    3 相關信息并未經過本網站證實,不對您構成任何投資建議,據此操作,風險自擔。

    4 如涉及作品內容、版權等其它問題,請在30日內同本網聯系。