理想汽車是國內最成功、最早實現(xiàn)盈利的造車新勢力,2025年以來銷量依舊保持快速增長。不過理想汽車的成功,主要來自于增程式電動系統(tǒng)的成功運用、精準的高端定位、寬敞的內部空間等方面,智能化方面表現(xiàn)出來的領先優(yōu)勢并不多。
現(xiàn)在,理想汽車準備補上這個短板。近日理想汽車提交了一枚名為“理想VLA”的商標申請,揭示了理想的一個大動作。業(yè)內人士認為,這是理想汽車正在豪賭下一代的智能駕駛的第一步。那么,理想VLA到底是什么呢?
理想VLA到底是什么?
按照理想汽車的說法,理想VLA的目標是在今年下半年突破VLA智駕大模型的落地難關。值得一提的是,目前智駕領域的主流模式是端到端,而且只在部分高端車型上才能實現(xiàn),并沒有真正普及。那么,理想的理想VLA模型,是要另起爐灶嗎?
實際上,VLA這個詞在智能化應用領域并不陌生,它的三個字母分別對應視覺-語言-動作。而在決定研發(fā)VLA模型之前,理想汽車已經在2024年10月底推送了端到端+VLM大模型,不過在理想汽車看來,這套大模型仍然不足以稱為完美。
目前流行的端到端大模型,實際上是人工智能的一種最新應用。常規(guī)的智駕系統(tǒng),一般是由工程師先寫好規(guī)則,然后將感知到的實際路況與這些規(guī)則進行匹配;而端到端智駕則是用人工智能模型來取代感知、規(guī)劃、控制三個模塊,讓智駕系統(tǒng)對于車輛的操作更接近人的水準。
但端到端模型目前仍然無法完全理解一些極端路況,在這種情況下,部分廠商便希望通過打“補丁”的方式來完善自身的端到端模型。而理想汽車的VLM模型就是這樣一個“強勁的“補丁”,其自身是一個多模態(tài)的視覺語言模型,對圖像和場景的理解能力更強,從而能夠提升智駕的精準度。
可以這么說,VLM模型針對的就是少量端到端智駕無法理解的復雜場景。
但這樣一來,端到端智駕與VLM就又成了兩個獨立的模型,這勢必會影響整個智駕系統(tǒng)的性能。
除此之外,多一個模型就會多占用一部分芯片,這在算力緊張的情況下并不是一個好的選擇。而理想的VLA模型,就是希望將端到端、VLM兩個模型合二為一。
根據目前已經公布的信息,理想VLA智駕在復雜路口的決策準確率已經達到了98.7%,在行業(yè)內具有明顯的領先優(yōu)勢。
在部分機構做的200類罕見物體的抓取測試中,理想VLA的準備率也接近90%,同樣在行業(yè)內遙遙領先。
除了理想 還有誰在做?
理想積極研發(fā)的VLA模型,屬于比端到端更前沿的技術,但中國新能源汽車市場的技術競爭非常激烈,VLA模型雖然上處于前期的起步階段,但已經有不少廠商在做了。
比較典型的就是吉利汽車,2025年3月初,吉利汽車對旗下的智駕方案進行整合,發(fā)布了統(tǒng)一的千里浩瀚智駕系統(tǒng),這套智駕系統(tǒng)從低端到高端分為五個版本,其中高階智駕方案就準備落地VLA模型。
同時,獨立的智能駕駛解決方案供應商元戎啟行,也計劃在今年推出VLA智駕方案,這個全新領域的競爭正在逐步加碼。
此外,華為、小鵬等品牌推動的端到端智駕也在快速普及,整個智駕領域的競爭越來越激烈,這會給理想汽車帶來不小的壓力。
理想VLA將會面臨哪些挑戰(zhàn)?
從理論上來說,理想VLA的技術前景還是比較誘人的,因此被部分業(yè)內人士稱為最終版的智駕解決方案。但需要注意的是,理論是一回事兒,能否商業(yè)化又是另外一回事兒。理想VLA模型在推進過程中,會遇到各種各樣的問題。
首先,理想VLA模型是準備將端到端和VLM兩個模型的數(shù)據進行深度交融,這對理想開發(fā)團隊的技術水平提出了極高的要求,同時也意味著更高的研發(fā)成本,而且短期內不太可能有什么收益。
其次,理想VLA模型是一種比端到端更復雜的智駕模型,這也意味著它需要更強的算力去支撐其運行,目前主流高端新能源汽車搭載兩顆英偉達智駕芯片,算力達到508TOPS,就已經是很不錯的了,而從理論上來講,VLA模型可能需要1000TOPS的算力,這在現(xiàn)有條件上很難實現(xiàn)。
除此之外,這樣的大模型也意味著它對高端芯片的需求更大,而芯片則是目前國內新能源汽車行業(yè)僅剩的幾個容易被斷供、卡脖子的領域。短期來看,國產廠商對英偉達等國外芯片廠商的依賴難以擺脫,這樣的因素,也會帶來技術上的風險,尤其是在商業(yè)化落地環(huán)節(jié)。
從總體上看,理想VLA路線的確提供了一種不錯的技術路線,并且已經得到了吉利、長城等廠商的認可。但從客觀角度來說,在端到端智駕尚未普及的情況下,VLA模型更像是一種前瞻性研究,距離落地還有比較遠的距離。但無論怎么樣,這樣的技術嘗試,對行業(yè)和消費者來說都是一件好事兒。