本文來源:智車科技
最近,人工智能領域最火的莫過于大模型了。
(資料圖片僅供參考)
由美國初創企業OpenAI開發的聊天應用ChatGPT引爆市場,生成式AI成為科技市場熱點,ChatGPT背后是深度學習大模型,其理解和生成文字的能力超過以往AI產品。全球主要云計算公司例如亞馬遜等都加入其中,爭奪算力、開發和銷售大模型,云計算市場迎來新一輪競爭熱潮,覆蓋AI計算所需的算力、算法、數據各層面。
在自動駕駛方面,今年的CVPR上,拿到best paper的自動駕駛領域論文,更是將端到端與大模型結合,將該領域推向了高潮。事實上,“端到端”是深度學習中的概念,英文為“End-to-End(E2E)”,指的是一個AI模型,只要輸入原始數據就可以輸出最終結果。
而隱藏在大模型背后的,便是人工智能領域的基石——深度強化學習技術。深度強化學習對于現階段的科技工作者來說可能并不陌生,作為21世紀最為前沿領先的技術之一,深度強化學習早已在多個領域發揮了其不可替代的作用。例如前幾年大火的AlphaGo戰勝了一眾圍棋世界冠軍,又比如游戲界DeepMind 研發的 AlphaStar 在《星際爭霸2》中一戰封神等等,火熱的強人工智能加速了人們對于未來科技飛速發展的信心,而基于強化學習的方法更讓人們看到了人工智能超越人類知識的可能。
如此前沿的技術必然在前沿的領域發揮舉足輕重的作用,在自動駕駛領域,深度強化學習已然走出了自己特有的道路,并吸引一位又一位研究人員、企業對其展開探索,試圖將這一人類能完成的最高智慧應用于未來的日常出行中。
01什么是深度強化學習?
對于不太了解人工智能的小白來說,對深度強化學習這一名詞的概念可能比較陌生,正式的定義為深度強化學習是將深度學習的感知能力和強化學習的決策能力相結合,可以直接根據輸入的圖像進行控制,是一種更接近人類思維方式的人工智能方法。
而作為兩大學習方法的疊加,深度強化學習包含了兩種方法的特征與優勢。深度學習具有較強的感知能力,但是缺乏一定的決策能力;而強化學習具有決策能力,對感知問題束手無策。因此,將兩者結合起來,優勢互補,為復雜系統的感知決策問題提供了解決思路。更進一步來說,強化學習是一種典型的序貫決策方式,智能體通過與環境的交互獲得反饋,在嘗試和試錯中不斷進步。而深度強化學習綜合了深度學習對高維數據的抽象感知能力與強化學習優秀的決策能力,能夠處理更高維度的輸入與輸出數據。
近年來,深度強化學習算法已在許多領域都取得了令人震撼的成就。2016年,基于深度 Q 網絡(Deep Q Network,DQN)和蒙特卡洛樹搜索算法的圍棋程序“AlphaGo”以4:1戰勝世界冠軍李世乭,轟動了世界,使得深度強化學習成為了人工智能領域研究的新風向。
近些年來深度強化學習算法取得的令人振奮的成果鼓勵了工業界和學術界進一步深入研究深度強化學習算法及其應用。學者們將深度強化學習算法應用在機器人控制、樓宇空調系統控制、匝道控制等領域中,在汽車和智能交通等領域,深度強化學習也在車道保持、超車決策、主動制動、能量管理、交通流調度等方面得到了應用。
02
深度強化學習在自動駕駛領域的應用
機器學習是指計算機程序通過已知經驗數據中進行訓練,通過迭代訓練以提高其在指定任務上預測準確性的過程。機器學習算法通常分為三大類流派,分別是監督學習、無監督學習和強化學習?(RL)。
監督學習算法基于歸納推理,通常需要使用有標記的數據進行訓練,以執行分類或回歸,而無監督學習一般應用于未標記數據的密度估計或聚類等技術。相比之下強化學習比較自成一派,其通過與環境交互來提高其在指定任務上的性能,與監督和非監督學習使用損失函數進行迭代訓練的方式不同,強化學習一般使用獎勵函數進行訓練,比如OpenAI與王者榮耀的絕悟AI都屬于強化學習的范疇,一般在電競、機器人等方向上應用較多。
根據各類機器學習算法的特點,可以看出在“場景理解”的相關任務中,使用監督學習算法比較合適,而在“決策與規劃”任務中,又非強化學習算法莫屬。而深度強化學習(Deep reinforcement learning,DRL)兼具了深度學習對高維輸入的處理能力與強化學習的決策能力,能夠實現由高維的感知信息到連續動作空間輸出的直接映射,非常適合處理環境復雜、交互頻繁的自動駕駛任務。
上圖是百度 Apollo 使用的一種典型的感知-規劃-控制序列式架構(Sequential perception-planning-action pipeline),主要包括高精地圖、定位感知、決策規劃、車輛控制等模塊。高精地圖和定位模塊為自動駕駛車輛提供位置信息,感知模塊提供靜動態障礙物信息,決策規劃模塊根據定位和障礙物信息合理規劃自動駕駛車輛的行為和路徑,最后由車輛控制模塊執行運動規劃模塊下發的路徑跟蹤控制指令。
但是感知-規劃-控制序列式架構主流的處理方式是將感知信息處理成人類可以理解的語義信息和道路交通信息,然后基于專家知識和規則進行決策規劃,這種方式在簡單場景下可以完成自動駕駛任務。但卻難以勝任在復雜不確定場景中執行的自動給駕駛任務,原因是現實場景的復雜多樣性,使得專家知識和規則不能完全覆蓋所有場景和工況。
基于深度強化學習的端到端(End-to-end)的控制架構是自動駕駛領域中新興的研究熱點,它能克服傳統方式依賴先驗環境建模的問題,可以直接實現通過從感知到控制功能的映射。例如今年CVPR的best paper中便指出,隨著深度學習發展,自動駕駛算法被組裝成一系列任務,包括目標檢測與跟蹤、在線建圖、軌跡預測、占據柵格預測等子任務?;谶@些子任務,行業有著多種自動駕駛系統框架設計:模塊化設計,多任務框架,但兩種方案都面臨著累積錯誤或任務協調不足的困擾。比如自動駕駛公司Waymo、Cruise采用的模塊化設計方案,每個獨立的模塊負責單獨的子任務。這種方案具備簡化研發團隊分工,便于問題回溯,易于調試迭代等優點。但由于將不同任務解耦,各個模塊相對于最終的駕駛規劃目標存在信息損失問題,且多個模塊間優化目標不一致,誤差會在模塊間傳遞。
論文同時認為,多任務框架是更優雅的一種設計方案,代表性企業有美國特斯拉、中國小鵬汽車等。方案中不同任務使用同一個特征提取器,具備便于任務拓展、節省計算資源等優點。但不同任務之間仍存在預測不一致、表征沖突的問題。相比之下,端到端自動駕駛方案將感知、預測和規劃所有節點視為一個整體,將取得更優的效果。
03端到端大模型面臨的挑戰
深度強化學習DRL已經被證實能夠解決無人駕駛中的部分問題,但還面臨很多挑戰。一是人工智能技術要真正應用在汽車上,還需要制定相關的技術標準。二是DRL在解決復雜問題需要大量的訓練時間和反復模型優化。三是需要設計一個穩定的智能系統,如何解決仿真和現實之間的gap差距,這也許不是添加噪聲就能解決的問題。四是模型的精度和整個智能系統的架構設計會影響DRL的可用性。
因此,基于深度強化學習的端到端大模型,也面臨著相應的困難:一方面,用簡單的方式直接以傳感器信號作為輸入、以軌跡/控制作為輸出,能夠在仿真中取得較好結果,但缺乏可解釋性與實際應用安全性,尤其是在復雜的城市道路場景。另一方面,對模型進行顯式設計,將整個架構分為感知-預測-規劃模塊,使其具有部分中間結果表達。但這種方式面臨檢測結果在模塊間不可微導致無法端到端優化,稠密BEV預測時長有限,過去-未來、物體-場景等多維度信息難以高效利用等困難。
因此,要想真正使得該項前沿技術大規模應用在自動駕駛領域現階段來看還為時尚早,但深度強化學習的原理及潛力讓我們看到了未來實現真正超越人類駕駛水平的自動駕駛技術的希望。作為目前最火熱的研究方向,端到端大模型此次的進展無疑是喜人的,也給了從業者們更多的信心。
原文標題 : 端到端大模型來襲,自動駕駛的最優解?
關鍵詞:
版權與免責聲明:
1 本網注明“來源:×××”(非商業周刊網)的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。
2 在本網的新聞頁面或BBS上進行跟帖或發表言論者,文責自負。
3 相關信息并未經過本網站證實,不對您構成任何投資建議,據此操作,風險自擔。
4 如涉及作品內容、版權等其它問題,請在30日內同本網聯系。