精品卡一卡二卡四卡三卡_一区二区不卡_日韩精品不卡_www.youjizz日本_手机看片1024久久_91免费版在线

首頁 > 生活分享 > 免費教學(xué) > 理想汽車押注“司機大模型”,會是大殺器嗎?

理想汽車押注“司機大模型”,會是大殺器嗎?

發(fā)布時間:2025-05-08 15:31:24來源: 13266987617

借著端到端+VLM架構(gòu),理想汽車實現(xiàn)了在輔助駕駛上的逆襲。

    嘗到新技術(shù)架構(gòu)甜頭的理想汽車,希望更進一步,引入更新的技術(shù)架構(gòu),來夯實自己在輔助駕駛、自動駕駛領(lǐng)域的優(yōu)勢,甚至希望成為引領(lǐng)者。
    那就是VLA(視覺、語言、行動)大模型,理想汽車將其命名為司機大模型。
    5月7日晚,理想汽車舉行了“理想AlTalk第二季李想面對面”線上活動。理想汽車創(chuàng)始人、CEO李想再度現(xiàn)身討論AI及AI在輔助駕駛、智能駕駛和汽車上的應(yīng)用思路。
    李想認(rèn)為,“今天輔助駕駛的這些規(guī)則算法、端到端跟人類差距還是太大了。”而司機大模型能力是最強的,“是最接近人類的,甚至有機會超過人類能力的一種”。
    “我自己認(rèn)為VLA(司機大模型)能夠解決到全自動駕駛。”
    李想沒有透露具體的司機大模型支持的輔助駕駛系統(tǒng)上車時間。只是表示,比此前預(yù)計的9月要提前。
    按照理想汽車透露的信息,理想純電SUV理想i8將于7月發(fā)布上市,并且搭載VLA(司機大模型)。
    01
    司機大模型有多厲害?
    輔助駕駛系統(tǒng)發(fā)展到今天,對于行業(yè)、對于理想汽車,都可以說是一個節(jié)點。
    就行業(yè)而言,由于一些飽受關(guān)注的事故影響,輔助駕駛系統(tǒng)的安全性受到質(zhì)疑。
    就理想汽車而言,盡管端到端+VLM雙系統(tǒng)開行業(yè)先河,并且將理想智駕拉到行業(yè)前列,引起一些技術(shù)路線追隨者,但是其輔助駕駛產(chǎn)品依舊是輔助工具。
    本質(zhì)上,這兩個問題都可以歸結(jié)為——輔助駕駛系統(tǒng)的能力依舊不足。
    李想提及了此前規(guī)則架構(gòu)、端到端架構(gòu)的兩個問題。
    一是對復(fù)雜東西的理解,比如復(fù)雜的修路,“如果是規(guī)則算法可能就會撞上了,如果是端到端可能停下來,但它不知道該怎么干了。”
    另一方面是無法跟人溝通。“今天端到端怎么做?就跟猴子一樣,你影響不了它,對吧?”
    但VLA架構(gòu)不一樣。面對復(fù)雜場景,司機大模型能輕松解決,因為它有理解能力。在訓(xùn)練階段,VLA架構(gòu)模型即便沒有經(jīng)歷過真實場景的學(xué)習(xí),也可以通過生成數(shù)據(jù)來訓(xùn)練。
    在溝通方面,司機大模型作為Agent(智能體),可以理解語言,司機可以給出指令,比如讓它一直在中間行駛,直到下一個路口,再比如靠邊停車,或者“到C3區(qū)停車”。
    而且,端到端架構(gòu)的系統(tǒng)與導(dǎo)航配合出現(xiàn)問題時無法妥善處理,司機大模型卻能在小區(qū)等開放空間漫游并與導(dǎo)航調(diào)整后匯合。
    因為,司機大模型看得懂導(dǎo)航軟件運行,具備思維鏈和推理能力,像人類司機一樣執(zhí)行駕駛行動,最終能像全職司機一樣工作,實現(xiàn)全自動駕駛。
    02
    司機大模型如何訓(xùn)練?
    司機大模型為什么理解世界,聽懂司機指令,并且還能成為駕駛“專家”呢?
    還要從VLA模型的架構(gòu)特點和訓(xùn)練方式說起。
    李想認(rèn)為,VLA架構(gòu)是逐漸進化而來的,具備了很多“像人類一樣的”能力:
    它能用3D的vision(視覺)和2D的組合,去看整個真實的物理世界,也包含它能夠去看懂導(dǎo)航軟件”。
    它有自己的整個腦系統(tǒng),不但要看到物理世界,還能夠理解這個物理世界。
    它有它的language(語言),然后它也有它的CoT(思維鏈),有推理的一個能力。
    它能夠像人類一樣的,真正地去執(zhí)行這樣的行動……
    這些能力來自何處?
    李想表示,司機大模型需要四個步驟來訓(xùn)練。
    步驟一,訓(xùn)練一個VL(視覺和語言)的基座模型。“我們目前在訓(xùn)的,當(dāng)前的這個版本,是一個32B的,就是320億云端的一個基座模型。”
    這一模型和過去的模型的差異在于,要放入更多視覺的語料,其中就包括3D上的視覺語料、高清的2D的視覺語料。而此前的多模態(tài)的開源VLM(視覺語言模型)里邊,2D視覺語料的清晰度太低,所以看的距離不夠。
    在語言模型方面,要放入跟交通、駕駛相關(guān)的足夠多的這方面的語料。
    此外,還必須放入很多VL(視覺和語言)聯(lián)合的語料,就是三維圖像和對世界的理解語義要同時產(chǎn)生的。“比如我舉一個例子,我要把導(dǎo)航的地圖和車輛對導(dǎo)航地圖的理解一起放進去。”
    李想也回應(yīng)了為什么要做基座模型。
    他說,理想汽車的VLA模型,即便是V(vision視覺)和L(language語言)部分也和通用大模型不一樣,需要涉及到更專業(yè)的車領(lǐng)域、交通領(lǐng)域、面向家庭用戶的語義語料,此外還需要把VL(視覺和語言)的組合語料放進去訓(xùn)練。“那這些無論是OpenAI還是DeepSeek,它都沒有這樣的數(shù)據(jù),它們也沒有這樣的場景和需求,也不去解決這樣的問題,那只能我自己來做了。”
    他也強調(diào),DeepSeek的開源加速了理想基座大模型的開發(fā)進度。“好處是說VLA(視覺語言行動模型)里邊的這個language(語言),我可以站在巨人的肩膀上,但是它只是我其中的一部分。”
    李想在這里透露,理想汽車把基座模型的團隊從智駕系統(tǒng)開發(fā)團隊拆開,并且加大了投入,“訓(xùn)練卡比團隊的預(yù)期應(yīng)該多買了3倍。”
    這一基座模型訓(xùn)練出來之后,需要蒸餾成一個3.6B(即36億)端側(cè)(即上車)的蒸餾模型。“因為我要保證它運行速度足夠得快,然后無論是兩個Orin-X還是Thor-U上能夠流暢地運行。”
    步驟二是做后訓(xùn)練,要把action(行動)放進來,從VL模型變成VLA模型,仍然是一種模仿學(xué)習(xí)。“特別像你去駕校學(xué)開車……這個時候大概模型規(guī)模就會從3.2B大概擴大到接近4B,大概這么一個規(guī)模。”
    步驟三是強化訓(xùn)練,“比較像人到社會上開車了”。強化學(xué)習(xí)一部分先做RLHF(基于人類反饋的強化學(xué)習(xí)),包括人類接管的反饋。強化學(xué)習(xí)另一個部分是純粹的RL(強化學(xué)習(xí)),“是(拿RL模型放到)我們的世界模型來做訓(xùn)練。這塊兒的目的什么呢?就是開得比人類更好。”
    當(dāng)這三個步驟完成了以后,VLA(司機大模型)能夠跑在車端的模型其實就產(chǎn)生了。
    步驟四,搭建一個司機的Agent(智能體),能夠聽懂司機的語音指令。“如果是一些短指令,通用的短指令VLA(司機大模型)直接就處理了,不需要再經(jīng)過云端。如果是一些復(fù)雜的指令,其實先要到云端的32B那里,VL(視覺和語言)處理完以后,(因為它理解交通的一切),整個交給VLA(司機大模型)來進行處理,大概這么運行的一個過程。”
    最終,李想認(rèn)為,“說白了它最后的一個好處是說它能夠像人類司機一樣去理解物理世界,能夠像人類司機一樣去開車,去處理復(fù)雜的問題,也能像人類司機一樣跟其他人類進行溝通。這是最后我們交付到用戶那里的產(chǎn)品。”
    03
    還有沒有更強的架構(gòu)?
    自特斯拉引入端到端技術(shù)架構(gòu)之后,探索智能駕駛輔助系統(tǒng)的企業(yè),紛紛模仿。
    但是,特斯拉不再舉辦AIDAY之后,業(yè)界無法再跟隨。此后,理想汽車提出了端到端+VLM的雙系統(tǒng)架構(gòu),被一些企業(yè)學(xué)習(xí)模仿。
    再往后呢?
    在機器人領(lǐng)域,VLA架構(gòu)被廣泛討論。和智能駕駛輔助領(lǐng)域,理想汽車和元戎啟行都提出VLA作為下一代架構(gòu)。
    李想認(rèn)為,交通領(lǐng)域應(yīng)該是VLA最早實現(xiàn)應(yīng)用的。
    第一,因為交通規(guī)則清楚,雖然復(fù)雜但具備確定性。
    第二,車有三個方向的自由度需要控制,而機器人的上來就是40多個自由度,那個挑戰(zhàn)就更大了。
    第三,在交通領(lǐng)域還能做特別好的強化,“大家在使用的過程中不滿意的時候就接管了”。
    理想汽車自從自研智能駕駛輔助系統(tǒng)以來,已經(jīng)迭代了數(shù)個技術(shù)架構(gòu)。會不會明年又換一個?
    李想表示,司機大模型是能力最強的架構(gòu),能解決到全自動駕駛,但是,不一定是效率最高的架構(gòu)。VLA基于Transformer,而Transformer架構(gòu)不一定是效率最高的,未來大概率會出現(xiàn)更高效的架構(gòu),因為當(dāng)前VLA對算力要求較高。

免費教學(xué)更多>>

AMD 銳龍9 9950X3D網(wǎng)游實測千幀達成!英特爾望幀興嘆 蘋果終于出手了:語言不通的尷尬AirPods能幫你治好 從科幻走向現(xiàn)實 今年我國腦機接口市場規(guī)模將突破38億元 首款鴻蒙電腦亮相:可直接使用鴻蒙NEXT手機、平板應(yīng)用,觸控板支持指關(guān)節(jié)雙擊截圖 2025年4月中國汽車保值率報告 130天后李想再談AI:評梁文鋒兩大“殺手锏”,拆解VLA如何煉成 不是樣子貨,衛(wèi)士也能跑達卡爾拉力賽? 史上最嚴(yán)電池安全新規(guī)明年7月實施:電動車行業(yè)迎來“零容忍”時代 增資“補血”,一汽奔騰打響新能源突圍戰(zhàn) 新勢力4月銷量觀察:零跑再奪魁首,行業(yè)洗牌加速 理想汽車押注“司機大模型”,會是大殺器嗎? 吉利銀河星耀8即將上市,標(biāo)配安全輔駕系統(tǒng) 看齊ET9!新款蔚來ES6/EC6更多實車圖曝光,換橫屏+懷擋 限時11.68萬起的四驅(qū)SUV,5個版本怎么選 實話實說:很多人都不需要100kW以上的充電速度! 法拉利首款電動SUV將于2026年春季發(fā)布 德國汽車迎來了“親商派”新總理 全新雪鐵龍C5 AIRCROSS概念展車來襲,網(wǎng)友調(diào)侃“車標(biāo)像金龍” 東風(fēng)日產(chǎn)想通了?一邊關(guān)廠,一邊拿11.99萬起的N7急救 2025年長治醫(yī)學(xué)院招聘博士研究生公告 2025年運城學(xué)院招聘博士研究生公告 2025年長治市平順縣招聘社區(qū)工作者公告 2025年山西醫(yī)科大學(xué)招聘博士研究生公告 2025年臨沂市委黨校招聘博士研究生公告 2025年煙臺市龍口市衛(wèi)生健康局所屬事業(yè)單位招聘工作人員公告 2025年日照莒縣衛(wèi)生健康局所屬事業(yè)單位招聘急需緊缺專業(yè)技術(shù)人員公告 2025年威海市文登區(qū)衛(wèi)生健康局所屬事業(yè)單位招聘工作人員公告 2025年德州市齊河縣事業(yè)單位優(yōu)秀青年人才引進公告 2025年東營東營區(qū)高層次及急需緊缺招聘教師簡章 基于SMA超級混動平臺打造 全新沃爾沃XC70全球首發(fā)亮相
主站蜘蛛池模板: 一级黄片毛片 | 国产精品夜夜爽 | 久久成人国产 | 亚洲永久精品国产 | 久色一区 | 日日碰狠狠添天天爽五月婷 | 91网站在线免费观看 | 欧美日韩成人网 | 亚洲自拍偷拍在线 | 国产精欧美一区二区三区 | 日日爽夜夜 | 欧美不在线 | 狠狠色噜噜狠狠狠97影音先锋 | 天堂中文资源网 | 三级斤 | 澳门av | 亚洲一区在线日韩在线深爱 | 91小视频在线观看免费版高清 | 波多野结衣亚洲一区 | 经典香港一级a毛片免费看 亚洲精品国产精品国自产观看 | 日本高清色惰www在线视频 | 亚洲 中文 欧美 日韩 在线观看 | 日韩欧美精品 | 久草中文在线 | 亚洲高清资源 | 青草综合| 美女国内精品自产拍在线播放 | 日本大片在线免费观看 | 国产成人一区二区三区 | 亚洲国产成人av好男人在线观看 | 亚洲欧美综合精品久久成人 | 亚洲免费看片 | 国产精品视频网 | 国产精品蜜芽在线观看 | 亚洲欧美在线视频 | 奇米色第四色 | 天天干天天在线 | 激情网址在线观看 | 中文字幕视频在线 | 九九色播 | 免费高清成人 |