AIGC 施展“物理魔法”，3D視覺突破“精度極限”

來源：光錐智能2023-08-23 12:44:20

[左上]點擊關注

文｜姚悅

編｜王一粟

【資料圖】

“沒有藝術，全是物理！物理讓你快樂，不是嗎？”

近日，在世界計算機圖形會議 SIGGRAPH 2023 上，英偉達創始人、CEO 黃仁勛宣布，將生成式AI與仿真模擬平臺Omniverse結合的時候，如同他宣布“AIGC是iPhone時刻”一樣興奮。

不同于大語言模型只能應用在圖文，有了基于物理規律的仿真模擬平臺，生成式AI就可以直接用到現實世界。

除了黃仁勛，美國斯坦福大學李飛飛團隊，近期也將大模型接入機器人，不僅使得機器人能夠與環境有效交互，還能夠在無需額外數據和訓練的情況下完成各種任務。

“基于物理世界模擬的生成式AI，是生成式AI ”，跨維智能創始人、華南理工大學教授賈奎對光錐智能表示，與具身智能的結合，生成式AI 將發揮出更確定性的作用。

而隨著通用能力的增強，AI也有望打破商業化的“魔咒”。

將生成式AI與物理世界結合，并不容易，這里面涉及的技術鏈條非常長。

首先，需要對物理世界基本規律的掌握，才能將真實世界建模到仿真模擬平臺。

仿真模擬平臺，不僅可以仿真物理場景，還可以模擬真實世界中物體之間相互作用、運動和變形。

而生成式AI的加入，會讓仿真模擬平臺擁有“預演”能力。

“人類從小就知道的物理常識，AI卻不知道。”黃仁勛表示，“生成式AI和仿真模擬平臺結合，就是要讓AI的未來能夠在物理上扎根。”

黃仁勛進一步解釋，讓AI在虛擬世界中學習如何感知環境，并通過強化學習來理解物理行為的影響和后果，讓AI實現特定目標。

這就需要用生成式 AI，預測物理世界中的千萬種、甚至上億種可能性，形成有價值的合成數據。

比如機械臂需要通過3D視覺的“眼睛”才能精準抓取，但如何排除環境變化的干擾，認出待抓取的物體（比如工廠里的零部件）？

通過仿真模擬平臺掌握了“光線對場景目標的反射、折射影響”等物理規律，生成式 AI就能預測模擬出一個瓶子，在不同場景光照下，周身不同的反光程度；同一光照下，金屬、塑料、木制品等不同材質物體表面呈現的狀態；一堆釘子，所有可能出現的散落狀態……

再次，需要將所有數據，都在仿真模擬平臺中用AI都跑一遍。

這一步，就是在訓練3D視覺大模型。區別于大語言模型，3D視覺大模型對于理解和推理視覺場景的組成特性至關重要，需要處理對象之間的復雜關系、位置、以及現實環境中的變化等。

最后，再連接上機械臂等具身智能的硬件，才能讓其學會智能化操作。

可以看到，生成式AI與物理世界結合的整個技術鏈條，不僅涉及物理學、圖形學、計算機視覺、機器人多學科交叉，還包括數字孿生、幾何深度學習、運動學解算、混合智能、智能硬件等多維前沿技術。

相應的，整個產業的鏈條也比較復雜，需要從數據到模型，再從模型到部署。

在這些環節中，有一個節點和此前AI的路徑非常不同，那就是“合成數據生成”。

用基于物理規律的生成式AI合成的數據，去訓練大模型，將給實體產業帶來跨越式的革命。

為什么不直接用真實數據訓練大模型？

目前，行業內多數基于3D視覺的機械臂，其控制系統的算法訓練所使用的就是真實數據。因為商業隱私等問題，這些真實數據很難在通用數據中獲取，基本都是企業自行采集。

然而，自采真實數據，首先在“效率和成本”這兩個運營的關鍵指標上，性價比就非常低。

這是因為，終端應用場景碎片化，數據根本不能通用。采集真實數據，企業就需要一個一個行業，一個一個工廠，一個一個場景的“地毯式”采集。而且，采集回來的數據也不能直接用，還需要進行一系列處理。

這個過程中，甚至產生了“人工智能悖論”。

“采集真實數據，AI技術的成本構成中，半數以上都是數據成本，而對數據的采集、清洗、標注、增強等處理過程，往往是大量人力堆積的結果。”有分析人士就曾指出，人工智能的本質是代替人工的智能。“諷刺的是，這樣的AI具備顯著的勞動密集型產業特征。”

如果用合成數據呢？

“用五六年、上千個案例積累的真實數據，通過合成數據，幾天幾周就能完成。”賈奎告訴光錐智能，相比于人工采集與標注數據，合成數據的成本能夠實現幾個數量級的降低。

最關鍵的還是，在訓練效果上，合成數據能夠更優于真實數據。

由于本身就是基于物理規律合成，合成數據天生自帶絕對精確的標注，這就意味著，AI學習起來效率非常高。

另外，合成數據的“全面性”是真實數據難以比擬的。“生成式AI 可以創造無數個世界，而且可以讓這個世界快速演進。”賈奎表示。

而落地到3D視覺行業，機械臂就猶如有了“上帝之手”，可以掌控一切過去未來。

“當然，這不能是物理世界的規律之外的。”賈奎強調。

“目前，我們不使用一張真實圖片，就可以完成機械臂復雜場景作業的3D視覺模型訓練。”賈奎告訴光錐智能，完全使用合成數據訓練的模型引導機械臂的柔性操作，可以實現現場%以上的穩定抓取。

也正是因為此， 合成數據，被稱為大模型的“數據永動機”。

當前，除了3D視覺領域，許多領域也都因通用數據缺乏和噪點多等問題，開始嘗試使用合成數據。但也有對合成數據抱有強烈質疑的觀點，稱如果沒有經過精心調試，在訓練時大量使用，會引發模型崩潰，造成不可逆的缺陷。

從技術演進的角度，合成數據不會是大模型的唯一解。

但賈奎指出，“沒有找到更好的辦法之前，合成數據就是目前能夠解決實際問題的最好辦法。如果還采用人力堆砌的真實數據，在包括3D視覺在內的很多領域，AGI（通用人工智能）永遠不可能實現。”

在機器視覺領域，對合成數據的需求更加旺盛，生成式AI 能夠釋放的價值也就會更大。

作為機器視覺非常重要的感知手段，3D視覺對于合成數據的需求就十分迫切。

“在一堆相似的零件里‘找不同’，物體換一個材質、顏色，都需要去調整參數。”一位3D視覺從業人士表示，不同領域的需求不同，使得落地場景過于碎片化，只能做完一個項目再重新定制另一個項目。

這就意味著，企業很難通過著力解決一個或幾個項目需求，就能形成標準化產品。也就無法進而通過快速復制，打入并拓展市場，追求利潤規模。

邊際成本難以降低，會將一家技術公司，變成項目公司，最終拖垮。

“魔鬼”藏在細節中。

傳統3D視覺感知有多脆弱？賈奎向光錐智能描述，“機械臂在抓取過程中，如果有人路過產生光線變化，任務就可能失敗。”

這是由硬件3D相機的成像原理造成的，3D相機成像容易受環境、物體形狀、材質、顏色、散射介質等影響，而且這一問題短時間內難以解決。

“解決一個問題可能是一百步，但最后一步付出的努力可能跟前面99步加起來是一樣的。”商湯科技聯合創始人楊帆曾表示，企業大部分的精力都需要用來應對小部分長尾問題。

但現在， “通用性能力很強的生成式AI ，能夠解決長尾問題，對于產品標準化至關重要。”賈奎表示。

相較于行業傳統定制化開發的模式，企業基于生成式AI ，就可以利用通用大模型，實現產品模塊化開發，做到開箱即用地部署，進而實現同行業直接拓展，不同行業也能有效復用。3D視覺行業的商業化難題也就迎刃而解。

與此同時，數據、開發、部署、硬件、行業拓展，每一個環節的成本也都實現驟降。

而在生成式AI 的催化下，3D視覺一旦爆發，也就意味著，在機械臂、機器人、無人駕駛、元宇宙等等高度依賴3D視覺技術的垂直場景，都將加速吃到AI的紅利。

不少數據已經印證了這一點，像數據標注、合成數據、工業機器人、機器視覺等領域，全球市場規模都在高速增長，尤其是合成數據的年復合增長率甚至都超過了30%。

這背后，實際上是生成式AI 的戰略價值，已經受到了科技和眾多制造業巨頭的高度重視。

從西門子、福特等老牌制造企業，到英偉達、特斯拉、谷歌等一眾科技巨頭，再到Waabi等明星初創公司，都開始紛紛在工業、機器人、無人駕駛、醫療、零售等諸多領域，探索生成式AI 更大的可能。

與此同時，資本的熱情也被極大地調動起來。據不完全統計，近年來，國外合成數據的相關融資，累計已接近8億美元。

在國內，合成數據相關企業也同樣引起了資本的注意。2022年6月，跨維智能宣布完成Pre-A輪融資，融資金額數千萬元，成立不到一年時間累計融資近億元；今年7月，光輪智能也宣布完成天使+輪融資，融資金額累計數千萬元。

可以說，從會作詩到學物理，生成式AI 正在開啟一個產業數字化的宏大未來。

關鍵詞：

責任編輯：sdnew003

返回首頁返回國際首頁

熱文排行

財經

綜合

黃金360

長安汽車宣布率先搭載華為HiCar 4.0：無感互聯、車手無縫聯動
中國稅務機關公開曝光4起涉稅案件
翻譯：No.1斯娃+衛冕冠軍No.3佩古拉：領銜2023WTA1000瓜賽種子選手
華為憋了四年，終于對WiFi和藍牙同時下手了。
消息稱蘋果iPhone 15系列配備1.5米長雙頭USB

AIGC 施展“物理魔法”，3D視覺突破“精度極限”

相關新聞

熱文排行

財經

綜合

黃金360

關注

熱門主題

綜合熱門

熱門主題

科技熱門

熱門主題

AIGC 施展“物理魔法”，3D視覺突破“精度極限”

相關新聞

熱文排行 財經 綜合 黃金360

關注 熱門主題

綜合熱門 熱門主題

科技熱門 熱門主題

熱文排行

財經

綜合

黃金360

關注

熱門主題

綜合熱門

熱門主題

科技熱門

熱門主題