強化學習+世界模型,絕影構建VLAR技術架構,突破端到端瓶頸
·R-UniAD創新鏈路:挖掘復雜場景、4D仿真復現、強化學習、泛化驗證
·近實時在線交互的4D世界模型“絕影開悟2.0”,生成式智駕R-UniAD的核心基石
·絕影輔助駕駛目前已合作4家車企,上車7款車型,基于地平線征程®6、英偉達DIRVE AGX Thor平臺打造的方案將在今年上車東風、奇瑞等車企伙伴
隨著輔助駕駛普及的不斷深入,公眾越來越關注駕駛系統的安全性,期待輔助駕駛帶來更安全也更流暢的智慧出行體驗。只是許多輔助駕駛方案在遇到新場景時難以妥善處理,事故時有發生,暴露出當前技術方案的諸多瓶頸。
想要提高安全性,端到端模型需要海量高質量數據訓練,然而,即使是百萬量產車回流的數據量,極端場景有效信息提取率不足1%。
不僅如此,因為端到端的范式是模仿學習,遇到沒有見過的新場景,它的駕駛決策存在很大的不確定性,安全邊界模糊,給駕駛安全帶來風險,更難以超越人類的駕駛能力。
因此,商湯絕影發布了生成式智駕R-UniAD技術方案,將強化學習引入到智能駕駛,讓端到端智駕與世界交互的不斷深入,通過生成的方式真實還原并深度理解駕駛環境,從而主動預測并處理復雜狀況,驗證輔助駕駛的安全邊界,讓駕駛安全更有確定性、更加值得信賴,并且超越人類的駕駛極限,為智能駕駛行業樹立了新路標。
商湯絕影構建VLAR架構,突破端到端數據、安全、性能三大瓶頸
人工智能技術的發展和進步推動著智能駕駛的演進。一開始的智駕都是規則式的,主要通過物理模型和邏輯預定義等方式來實現輔助駕駛的基礎功能執行,但面對復雜場景略顯乏力。隨著神經網絡的引入和AI大模型的出現,商湯絕影2022年發布了行業首個感知決策一體化的智駕通用模型UniAD,并榮獲CVPR 2023最佳論文,引領了智能駕駛行業的創新潮流,智駕進入到端到端時代,模型學會類人交互,性能表現大幅提升。
隨著端到端路線探索和實踐的持續深入,它開始觸及瓶頸。首先,端到端是通過海量的高質量人類駕駛數據學習和訓練,比如特斯拉就以超700萬輛量產車形成的數據回流來訓練端到端模型,但人類的日常駕駛中,極難遇到像車禍等極端場景,這導致了僅有不超過1%的數據可用于最終訓練,高價值數據的稀缺性成為制約端到端訓練的一大瓶頸。
另一方面,由于端到端的本質是對人類駕駛行為的最佳模仿,遇到沒有見過的新場景,端到端方案的駕駛決策存在很大的不確定性,為駕駛安全帶來風險,同時,基于模仿學習的技術范式可以做到接近人類但難以突破人類能力上限。因此,性能和安全性也成為了端到端發展的兩大瓶頸。
今年年初,DeepSeek-R1基于純強化學習的關鍵創新引發了廣泛的關注,基于強化學習的大模型技術路線可以遷移到端到端輔助駕駛算法的訓練與研發之中。2025年2月,商湯絕影發布了行業首個與世界模型協同交互的端到端技術方案R-UniAD,通過世界模型生成在線交互的仿真環境,以此進行端到端模型的強化學習訓練,行業開始邁向生成式智駕。
本屆上海車展上,商湯絕影全面展示了R-UniAD技術方案,基于世界模型和強化學習兩大核心技術,構建集“視覺-語言-行動-強化學習”于一體的VLAR技術架構,實現生成式智駕的核心突破。
基于世界模型和強化學習,絕影構建集“視覺-語言-行動-強化學習”于一體的VLAR技術架構
商湯絕影的R-UniAD是「多階段強化學習」端到端技術方案,具體分為三個階段,首先是依靠冷啟動數據通過模仿學習進行云端的端到端輔助駕駛大模型訓練;然后基于強化學習,讓云端的端到端大模型與世界模型協同交互,持續提升端到端模型的性能;最后云端大模型通過高效蒸餾的方式,實現高性能端到端輔助駕駛小模型的車端部署。
這三個階段的核心在于第二階段的“強化學習與世界模型”,也就是VLAR技術架構。在VLAR技術架構的支持下,R-UniAD能夠重構萬千世界,讓實采Corner Case數據需求降低2個量級;同時依托云端超100萬案例和1024場景類型,構建更加精確、全面的虛擬測試場景,充分探索安全邊界,賦予了輔助駕駛有確定性的安全感,最終通過不斷地強化學習訓練出來的模型,相較于人類駕駛員的碰撞率降低1個量級,實現遠超人類的駕駛能力。
R-UniAD如何讓安全更有確定性:挖掘復雜場景、4D仿真復現、強化學習、泛化驗證
因為各類施工防護設施搭配不同的空間布局,組合繁雜多變,所以施工占道場景是輔助駕駛領域的棘手難題,也是交通事故頻發的重要場景。上海車展發布會上,商湯絕影現場演示了針對“施工占道剎停”場景,R-UniAD如何依托“VLAR”增強模型能力。
首先,以“施工占道剎停”路測視頻作為輸入,即自車因為沒有識別錐桶封路,在施工區域進行急剎。
接下來是R-UniAD對這個場景基于“絕影開悟”世界模型進行4D仿真復現。第一步是把案例視頻進行解耦,分為3D的動態前景與靜態背景;第二步,使用物理引擎、3DGS等重建和渲染技術對場景進行復現;第三步,用“絕影開悟”世界模型對場景細節進行修復,讓場景變得更加逼真。
完成這三步的流程,傳統方案需要數天時間,R-UniAD僅需幾個小時就能完成,而且場景更為精細可控,一致性達到了95%,相比單一的3DGS技術提高了1.5倍。
然后就是進行針對性強化學習的訓練。在閉環仿真工具鏈中設置對“施工占道剎停”案例自車軌跡的Reward計算維度和分值,包括最大最小加速度、是否到達終點、是否違反交通規則、是否碰撞等維度,并根據規則進行組合計算。端到端模型就在仿真環境中自行駕駛,系統根據自車軌跡給予相應Reward分值反饋。
在初期訓練中,自車因為沖入對向車道或者同向車道被扣分,如果能夠及時剎停變道,就會得到高分。端到端模型不斷生成該場景下各種可能駕駛策略,并與世界模型生成的環境交互,通過數千次強化學習訓練,經過不斷評分反饋,端到端模型會找到最優路徑,能預判施工占道,絲滑變道繞行。
最后,經過泛化訓練后,再遇到類似前方障礙物場景,端到端模型也能及時變道,并顯著提升對此類施工場景的泛化交互能力。