李想對DeepSeek以及其創始人梁文鋒給出了高度評價,他說從DeepSeek學到的最重要的一件事,就是如何構建模型能力。
李想本人包括謝炎(理想汽車CTO)的內心很感謝DeepSeek帶來的幫助,覺得應該給對社會貢獻點什么,不讓行業那么卷,并稱開源星環OS“說白了純粹是感謝DeepSeek。”
李想還提到了他對AI未來發展的看法,VLA司機大模型成為交通領域專業的生產工具。
李想介紹了VLA的應用價值,他表示,規則算法是“昆蟲動物智能”,端到端模型是“哺乳動物智能”,VLA司機大模型是“人類智能”。
對于特斯拉FSD入華后的表現,李想表示特斯拉并未釋放出真實能力,要和特斯拉學基本功。
李想也回憶了創業十周年間的艱難時刻,2024年至2025年年初,理想自動駕駛核心團隊成員幾乎接到超過20個獵頭電話。李想還分享了他本人的心路歷程,成為更有能量的人,關鍵在于關注自我,接受自身的優點和不足,并用成長替代改變。
從信息量來看,這一小時的面對面溝通可謂是干貨滿滿,李想帶來了關于人工智能和輔助駕駛更深的思考,這也意味著理想汽車在朝著人工智能企業轉型的路上留下了更堅實的足跡。
一、李想高度認可梁文鋒自律 開源星環OS感謝DeepSeek
在理想汽車AI Talk第一季,李想首次全面、深入分享了理想在AI轉型方面的進展,目前已經過去了130天。
理想汽車創始人、董事長兼CEO李想
對于這一期間的變化,李想回應,130天看到的是整個中國的進步,對中國人工智能更有信心。
過去130天國際環境在發生重大的變化,技術也在發生變化,但技術最大的變化還是中國在人工智能方面帶來的變化,美國的變化反而沒那么大。
李想說,包括DeepSeek、通義千問在內等中國模型,已經跟美國的距離基本上拉近了,或者基本上在一個水平線上了,這些方面做的都非常的好。
李想介紹了他從DeepSeek上吸取到的經驗。DeepSeek運用了人類的最佳實踐,比如說DeepSeek V3采用了一個671B的MoE(混合專家模型)。
李想從DeepSeek上學到的內容
李想認為,MoE(混合專家模型)是個非常好的架構。專家能力是怎么來構建的?DeepSeek展示了一個最佳實踐,第一步一定要先搞研究。搞完研究以后其實才搞研發,第三步是要把能力表達出來,然后第四步是能力變成業務的價值。
李想認為能力構建的過程
這四個步驟是個極簡的人類最佳實踐,研究跑通了以后,研發效率會變得非常的高。但是研發又非常在意價值,能夠把價值表達出來,然后變成業務,這是一個很重要的過程。
李想也對DeepSeek創始人梁文鋒給出了高度認可。
去年的9月份,李想在和梁文鋒的溝通中發現,他是個特別自律的人。并且他是會在全世界范圍之內去研究和學習最佳實踐和最好的方法論的人。
李想還說:“我自己內心,包括謝炎(理想汽車CTO)的內心想法是,DeepSeek給我們帶來那么大的幫助,我們應該給對社會貢獻點什么,不讓行業那么卷,說白了開源星環OS純粹是感謝DeepSeek。”
理想開源星環OS
為什么有了DeepSeek,理想還要自研基座模型?李想回應說:“核心在場景需求不同,我們要做車載多模態交互,尤其是VLA(視覺語言行動模型)——需要3D/2D視覺融合,疊加汽車、交通、家庭場景的專業語料,這些垂直領域的數據和訓練邏輯,是通用模型沒覆蓋的。”
對于人工智能未來的發展,李想表示,當AI成為生產工具,人工智能才會迎來爆發時刻。
李想將AI工具分為信息工具、輔助工具和生產工具,他認為當AI成為生產工具時,人工智能才會真正爆發,只要人類會雇傭專業司機,人工智能就能成為生產工具。
李想認為工具的三個分級
二、輔助駕駛正經歷黎明前的黑暗 VLA能力有機會超過人類
李想對于當前輔助駕駛發展的爭議以及前景進行了回應。
今天的輔助駕駛其實走到了一個新的十字路口上,有的人說甚至覺得輔助駕駛應該被叫停。
李想認為,理想這么多年,從規則算法,做到了端到端+VLM,然后今天真正的邁入到了VLA(視覺語言行動模型)的階段,比較像黎明前的黑暗。輔助駕駛行業遇到了問題,這些問題(存在)恰恰是理想的價值所在。
李想認為目前輔助駕駛處于黎明前的黑暗
為什么人類一定需要輔助駕駛?
對于這個問題,李想解釋說,只要人類會雇傭專業司機,人工智能的司機就存在需求。人工智能技術其實就是把類似這樣的一些功能和角色,去變成真正的生產力、生產工具,然后去進行替代。
李想還說明了人工智能的司機應該達到的標準,李想表示,這和選員工一樣:專業、職業、信任。理想要做的人工智能,是有人類價值觀的人工智能,價值觀就像是給人工智能的邊界線、雙實線,要讓人工智能有道德、有邊界。
李想還詳細回應了關于VLA司機大模型、人工智能等多個話題。
李想對VLA給出了更容易理解的解讀,簡單說,就是讓汽車像人類司機一樣思考行動的“大腦”。
VLA司機大模型以“司機Agent(智能體)”的產品形態呈現,用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。簡單通用的短指令由端側的VLA直接處理,復雜指令則先由云端的VL基座模型解析,再交由VLA處理。
司機Agent(智能體)
李想介紹了VLA的模型架構與發展歷經階段。他表示,VLA的實現不是一個突變的過程,是進化的過程,經歷了三個階段,對應理想汽車輔助駕駛的昨天、今天和明天。
第一階段,理想汽車自2021年起自研依賴規則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。
李想認為輔助駕駛進化過程
端到端模型在處理復雜問題時存在局限,雖可借助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領域的能力有限。同時端到端模型也難以與人類溝通。為了解決這些問題并提升用戶的智能體驗,理想汽車自2024年起開展VLA研究,并在多項頂級學術會議上發表論文,夯實了理論基礎。
VLA司機大模型訓練與推理過程
在端到端的基礎上,到第三階段,VLA將開啟“人類智能”的階段。
它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統,具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執行行動,符合人類的運作方式。
輔助駕駛強化學習
李想還列舉了端到端+VLM(視覺語言模型)架構可能無法解決,但VLA(視覺語言行動模型)可以解決的corner case(長尾案例)。
他表示,VLA的突出優勢表現在兩方面,一方面是對復雜東西的理解,VLA(司機大模型)能夠有效地去處理了,而且不需要通過海量的數據訓練。
另外一方面是跟人溝通,雖然今天VLA可能能力還沒那么強,像一個剛從駕校學完的新手司機,但還有一個成長的過程。
雖然VLA較端到端+VLM實現了巨大提升,但有可能一步直達VLA嗎?
李想表示沒有可能,他表示,VLA的誕生不是突變,而是進化,端到端是VLA的基礎。只有做好規則算法,才能知道如何做端到端,只有把端到端做到極致水平,才有機會去做VLA,這個過程沒有捷徑。
對于VLA的應用前景,李想充滿了信心。他舉了DeepSeek爆發的例子,“擁抱DeepSeek的速度比想象中快,所以VLA到來的速度也比想象中快。”
VLA(視覺語言行動模型)是終極的架構嗎?李想表示,VLA(司機大模型)能夠解決到全自動駕駛,但是VLA(司機大模型)是否是一個效率最高的方式,是否有效率更高的架構出現,這些還要打個問號,他認為大概率還是會有下一代架構的。
不過,李想表示,VLA是現階段能力最強的架構,它的能力是最接近人類的,甚至有機會超過人類。
針對理想汽車的人工智能的探索歷程,李想感慨到,理想人工智能走的是無人區。
李想說:“做VLA,理想走的是一個無人區。Deepseek沒有走過這條路,OpenAl沒有走過這條路,谷歌、Waymo也沒有走過這條路。理想以前走的是汽車的無人區,以后走的是人工智能的無人區。”
三、理想輔助駕駛團隊險被挖角 特斯拉FSD入華未釋放真實能力
李想之前對內說過一句話,說理想的智駕原創性超過了增程。
李想說:“我們在這方面的研究工作真的做得很深。為了做好這個輔助駕駛,我們還做了操作系統,構建了完整的訓練體系,甚至直接去改芯片、底層軟件,這方面工作肯定做的比這個增程做的工作量更多。
李想還透露:“2024年和2025今年年初,我們每一個輔助駕駛團隊的核心人員可能基本上都會接到20個以上的獵頭電話。”
李想還談論了特斯拉FSD在華表現等問題。
李想判斷,從實測來看,特斯拉大概在用FSD V12.5之前的模型,距離特斯拉真實能力還有巨大的差距。特斯拉FSD V13.0以后的能力還是非常強的,特斯拉基本功是非常扎實的。
李想也進一步解釋了為什么特斯拉沒有在華釋放真實的能力的原因,中國有著極為復雜的路況,如果直接上端到端,遇到這些復雜的場景,還是會遇到挑戰。
四、創業十周年之際 李想自述耐受力很差
除了分享理想汽車在VLA大模型上的探索進展及成果外,李想還分享了創業及對人性的思考。
今年7月份是理想成立十周年,站在今天,李想回憶了創業十年的幸福時刻和痛苦時刻。
李想腦海中第一個最重要的畫面,是2018年第一次發布,一直延續到2019年的4月份,上海車展第一次帶有價格的正式展示,理想真的做出來一輛車,并且受用戶喜歡。在上海車展的展館里面,理想是人流量最大的一個展臺。
理想ONE
另一個是2022年發布L9的時候,到了2025年,還有至少5個企業因為當時L9的成功,在打造跟L9相同的產品。
剛經歷了L9的幸福,痛苦就出現了。
李想回應到,那時候全網的黑公關都說理想汽車倒閉,那一個季度理想虧了將近二十億,忽然從巔峰掉到谷底,理想認識到很多能力不足,但正是因為這件事情,理想調整后在2023年做到了1200億的收入。
李想說:“反正我創業那么多年了,當問題來的很多時候,又是一個更大的機會的到來。所以我對這方面其實也沒那么糾結。我對于不正常的事情耐受力很差,但我對于一些不好的東西解決完以后,整個記憶能力也很差,會把它忘掉。”
李想也進一步分享了自己創業的心路歷程。
就如何能吸引到更多能量的人,李想談了自己的看法,他認為要關注人,尤其是關注那些離得最近的人,關注親密關系的人,關注人的時候首先你得先關注自己。
李想介紹了他是如何關注自己的:“第一,我會接受自己所有的優點。第二個是要能接受自己的不足。第三是用成長替代改變。”
李想還補充說,他在做理想汽車的時候就非常注重資本,請最好的FA(財務顧問),請最好的律所,“今天大家可以看到所有的新勢力企業里面,理想汽車的股權架構、治理結構、資本現金管理都是做得最好的。”
李想說:“我并沒有改變我的業務,其實是增強了一個能力,所以它是個成長。我們會面臨方方面面的能力成長,就能給自己帶來能量。”
李想還講了如何帶來能量,第一能自己產生能量,第二能夠帶給別人能量,第三能從別人那獲取能量。
結語:VLA大模型競爭加劇
當前,VLA也被業內越來越多人視為實現L4級自動駕駛的關鍵路徑,能夠通過語言模型引入邏輯推理能力,突破端到端模型的黑箱局限。
關于VLA的競爭已經打響,理想、元戎啟行、吉利汽車都已布局,行業正展開“軍備競賽”。
理想汽車在去年二季度財報電話會議上表示已啟動端到端VLA模型的研究,隨著VLA的落地上車,理想汽車有望進一步讓用戶體驗到“專職司機”水平,加快從新能源汽車制造商向人工智能企業的轉型。