當前位置：首頁文章

獨家丨豪賭下一代智能駕駛，理想汽車封閉開發 VLA 模型

汽車像素

需要爭鳴、渴望共識

+ 關注

理想 i8 將在今年 7 月發布，此后幾個月中，理想多款 i 系列純電車會密集上市。為了迎接它們，理想在準備兩件事，一是大規模建設 5C 超充站，二是將智能駕駛的能力再提升一個高度。

文|曹琳

編輯|冒詩陽

汽車像素(ID:autopix)原創

01.

理想急攻 VLA

我們獨家了解到，理想已在不久前啟動了封閉式開發，目標是到今年下半年，突破 VLA （視覺-語言-動作）智駕大模型的落地難關。

VLA 是今年智能駕駛的核心競賽之一。目前理想汽車、吉利汽車和元戎啟行是 VLA 的主要推動者，三家公司都希望成為率先落地 VLA 的一家。

VLA 的落地有其難度。除了模型本身的研發需要時間，硬件的限制無法逾越。現在市面上可采購到的芯片，性能基本都無法支持 VLA 的運行。供應商方案中，英偉達今年即將量產的 Thor 系列，有望能夠解決這一問題。

在理想汽車內部，基于哪個芯片來開發未來產品智駕方案的硬件算力平臺，曾經歷數輪變化。理想最先啟動的方案是基于英偉達 Thor-U 來開發，這也是元戎、吉利的方向，隨后調整為基于自研芯片做開發。

我們獨家了解到，去年底理想自研的芯片項目 “舒馬赫” 流片失敗，在那之后，雖然自研芯片的項目又重新上路，但理想暫停了基于自研芯片所做的算力平臺開發，轉而繼續用英偉達的 Thor-U MAX 做開發。據時間線推斷，現在理想封閉開發的 VLA 模型，大概率也是在英偉達 Thor-U MAX 的基礎上做。

智能駕駛每年都會有一輪新的技術競賽，一次又一次改變第一梯隊的座次。2024 年的競賽是端到端，理想的智能駕駛能力，也是在這一年中嶄露頭角。

去年 10 月底，理想汽車官宣全量推送端到端 +VLM 大模型，超過 30 萬理想 AD MAX 版本車輛的車主，成為首批嘗鮮者。11 月 28 日，同樣基于端到端 +VLM，理想向 AD Max 版車主全量推送了車位到車位功能，成為行業首個全量推送這一功能的車企。

從實際效果來看，理想的端到端 +VLM 方案的確受到了較高的評價。一位來自主要競爭對手的智駕研發負責人告訴我們，理想全量推送后，該公司立刻找來了一輛測試車，讓自家研發人員報名去體驗。

但這套方案只是階段性成果，端到端 +VLM 大模型并不能作為最終的解決方案。

所謂端到端智駕大模型，是指用人工智能模型來取代舊智駕方案中的感知、規劃、控制三個模塊。智能駕駛系統不再依賴工程師編寫的規則工作，而是訓練 AI 模型，讓它學習人類司機的開車方式。這么做的好處是，智能駕駛的能力上限會更高，進步速度會更快，駕駛方式更接近人類。

但現階段的大模型有其缺陷，比如決策不可解釋，再比如有少量難以預知的場景無法處理等。為了解決種種問題，理想在端到端模型的基礎上，增加了一個 VLM（視覺語言）模型。

端到端大模型是智能駕駛的專用模型，決策速度快，可以應對絕大多數的駕駛問題。VLM 是多模態模型，對圖像和場景的理解能力更強。現在主流的智能駕駛方案，逐步過渡到以攝像頭傳遞的圖像信息為主，因此 VLM 能夠提升整套智駕系統對復雜場景的理解能力，從而提升智能駕駛的精準度。

二者的組合可以理解為是，端到端大模型負責開車，VLM 提供意見，為少量復雜場景兜底。這種組合雖然彌補了端到端大模型的不足，卻并不能作為智能駕駛的終極解決方案。

▍元戎啟行制作的圖解

理想的端到端和 VLM，仍然是相對獨立的兩個模型。VLM 模型雖然理解能力強，但推理速度慢，無法直接控制車輛，只能起到有限的作用。此外，VLM 模型通常需要本地部署，運行起來大約需要占用整整一顆 Orin-X 芯片的算力。

理想在去年二季度財報的電話會議上對外透露，公司內部已經啟動了端到端 VLA 模型的研究。VLA 能夠將此前的端到端、VLM 兩個模型合二為一。也就是說，在新的模型中，多模態大模型不再作為輔助，而是內化為了端到端智駕大模型的一種能力。

02.

智能駕駛接近決戰時刻

理想并不是智能駕駛領域的先行者，當技術方向清晰后，理想迅速通過投入大算力和海量的數據，快速驗證路徑，追上了對手。這種路徑適用于車輛保有量大、且駕駛數據可有效回傳的車企。但隨著時間的推進，落后者的機會窗口逐漸縮窄。

今年 2 月底，特斯拉 FSD V12 開始在國內小范圍測試，鯰魚來了。包括理想在內的一些車企，將 VLA 視作是智能駕駛未來的方向，甚至可能是接近最終解決方案的一套技術路徑。

今年 3 月 3 日，吉利汽車整合了旗下大部分智能駕駛方案，發布了統一的 “千里浩瀚”，由低到高分別推出 H1、H3、H5、H7 和 H9 五套智駕方案，在高階方案上率先落地 VLA，也是吉利的目標。此外，獲得了長城汽車投資的智能駕駛方案商元戎啟行，也計劃在今年推出 VLA。

然而，VLA 的落地一直有問題沒有解決，需要研發人員深度交融兩個模型的數據，這十分考驗研發團隊對AI大模型框架的定義能力。

另一個限制在硬件，端到端與 VLM 融合后，車端模型參數會變得更大，同時新模型需要更高效的完成實時推理，理解復雜世界并給出建議，這些都對車端芯片有更高的要求。

現在多數車企高階智駕的硬件方案，基本都是兩顆 Orin-X 芯片，算力 508Tops，不足以支持 VLA。英偉達最新一代車載 AI 芯片 Thor 單片 AI 算力最高是 1000Tops，且性能上對大模型的有更好的支持。包括理想 i8、極氪 EX1E、領克 900 等在內，很多很多車企旗艦車的上市時間集中在了今年下半年。

VLA 并不是今年智駕唯一的賽場，另一個技術路線的代表是華為、小鵬，去年他們同樣完成了端到端智駕方案的推送，時間點早于理想。

與理想的方案不同，華為、小鵬去年解決端到端大模型問題的方式，可以描述為 “分段”。以小鵬為例，其智駕模型由神經網絡感知網絡 XNet、規控大模型 XPlanner 和大語言模型 XBrain 三個部分組成，增加了大模型的可解釋性和推理能力。華為、小鵬這條路徑上的競賽，是推進一段式端到端方案的研發。

無論哪一個賽場，頭部玩家智駕技術水平的快速迭代，都會導致競賽的節奏變快，落后的玩家只能面對越來越高的門檻，后發制人的可能性會逐漸變小。

本文為汽車像素（autopix）原創內容

未經授權，請勿轉載

聲明：本文由太平洋號作者撰寫，觀點僅代表個人，不代表太平洋汽車。文中部分圖片來自于網絡，感謝原作者。