HAOMO AI DAY 顧維灝：DriveGPT讓通用感知實現“萬物識別”

2023-10-12 15:30:19 作者：喻欽濤

　　隨著汽車智能化趨勢加速，我國智能駕駛賽道迎來爆發。當前高階智駕產品正經歷從高速場景到城市場景落地的比拼，而城市輔助駕駛被認為是邁向真正自動駕駛的最后一個挑戰。毫末認為，決定這場智能駕駛產品躍遷的關鍵，是自動駕駛AI算法在開發模式和技術框架的顛覆性變革，而AI大模型則成為引領這場技術變革的核心變量。

　　2023年10月11日第九屆毫末AI DAY上，顧維灝發表了主題為《自動駕駛3.0時代：大模型將重塑汽車智能化的技術路線》的演講，分享了毫末對于自動駕駛3.0時代AI開發模式和技術架構變革的思考，同時也公布了毫末DriveGPT大模型的最新進展和實踐。其中，截至目前，毫末型DriveGPT雪湖·海若已累計計篩選出超過100億幀互聯網圖片數據集和480萬段包含人駕行為的自動駕駛4D Clips數據；在通用感知上，進一步升級引入多模態大模型，獲得識別萬物的能力；與NeRF技術進一步整合，渲染重建4D空間；在通用認知上，借助LLM（大語言模型），讓自動駕駛認知決策具備世界知識，能夠做出更好的駕駛策略。

（顧維灝：DriveGPT通用感知與通用認知能力全面升級）

　　毫末智行CEO顧維灝提出：“在大數據、大模型、大算力的自動駕駛3.0時代，自動駕駛技術框架也會發生顛覆性的變化。在感知階段，通過海量的數據訓練感知基礎模型，學習并認識客觀世界的各種物體；在認知階段，則通過海量司機的駕駛行為數據，學習駕駛常識，通過數據驅動的方式不斷迭代并提升整個系統的能力水平。毫末一直以數據驅動的方式來推動自動駕駛產品的升級，為進入自動駕駛3.0時代做準備。”

通用感知可識別萬物、通用認知學會世界知識：毫末DriveGPT引領自動駕駛大模型新范式

　　顧維灝認為，與2.0時代相比，自動駕駛3.0時代的開發模式將發生顛覆性的變革。在自動駕駛2.0時代，以小數據、小模型為特征，以Case任務驅動為開發模式。而自動駕駛3.0時代，以大數據、大模型為特征，以數據驅動為開發模式。

　　相比2.0時代主要采用傳統模塊化框架，3.0時代的技術框架也發生了顛覆性變化。

　　首先，自動駕駛會在云端實現感知大模型和認知大模型的能力突破，并將車端各類小模型逐步統一為感知模型和認知模型，同時將控制模塊也AI模型化。隨后，車端智駕系統的演進路線也是一方面會逐步全鏈路模型化，另一方面是逐步大模型化，即小模型逐漸統一到大模型內。然后，云端大模型也可以通過剪枝、蒸餾等方式逐步提升車端的感知能力，甚至在通訊環境比較好的地方，大模型甚至可以通過車云協同的方式實現遠程控車。最后，在未來車端、云端都是端到端的自動駕駛大模型

（毫末DriveGPT升級：大模型讓自動駕駛擁有世界知識）

　　毫末DriveGPT大模型正是按照3.0時代的技術框架要求進行升級。在通用感知能力提升上，DriveGPT通過引入多模態大模型，實現文、圖、視頻多模態信息的整合，獲得識別萬物的能力；同時，通過與NeRF技術整合，DriveGPT實現更強的4D空間重建能力，獲得對三維空間和時序的全面建模能力；在通用認知能力提升上，DriveGPT借助大語言模型，將世界知識引入到駕駛策略，從而做出更好的駕駛決策優化。

　　具體來講，在感知階段，DriveGPT首先通過構建視覺感知大模型來實現對真實物理世界的學習，將真實世界建模到三維空間，再加上時序形成4D向量空間；然后，在構建對真實物理世界的4D感知基礎上，毫末進一步引入開源的圖文多模態大模型，構建更為通用的語義感知大模型，實現文、圖、視頻多模態信息的整合，從而完成4D向量空間到語義空間的對齊，實現跟人類一樣的“識別萬物”的能力。

（毫末DriveGPT通用感知大模型：讓自動駕駛認識萬物）

　　毫末通用感知能力的進化升級包含兩個方面。首先是視覺大模型的CV Backbone的持續進化，當前基于大規模數據的自監督學習訓練范式，采用Transformer大模型架構，實現視頻生成的方式來進行訓練，構建包含三維的幾何結構、圖片紋理、時序信息等信息的4D表征空間，實現對全面的物理世界的感知和預測。其次是構建起更基礎的通用語義感知大模型，在視覺大模型基礎上，引入圖文多模態模型來提升感知效果，圖文多模態模型可以對齊自然語言信息和圖片的視覺信息，在自動駕駛場景中就可以對齊視覺和語言的特征空間，從而具備識別萬物的能力，也由此可以更好完成目標檢測、目標跟蹤、深度預測等各類任務。

　　在認知階段，基于通用語義感知大模型提供的“萬物識別”能力，DriveGPT通過構建駕駛語言（Drive Language）來描述駕駛環境和駕駛意圖，再結合導航引導信息以及自車歷史動作，并借助外部大語言模型LLM的海量知識來輔助給出駕駛決策。

（毫末DriveGPT認知大模型：讓自動駕駛具備常識）

　　由于大語言模型已經學習到并壓縮了人類社會的全部知識，因而也就包含了駕駛相關的知識。經過毫末對大語言模型的專門訓練和微調，從而讓大語言模型更好地適配自動駕駛任務，使得大語言模型能真正看懂駕駛環境、解釋駕駛行為，做出駕駛決策。

　　認知大模型通過與大語言模型結合，使得自動駕駛認知決策獲得了人類社會的常識和推理能力，也就是獲得了世界知識，從而提升自動駕駛策略的可解釋性和泛化性。

　　顧維灝表示：“未來的自動駕駛系統一定是跟人類駕駛員一樣，不但具備對三維空間的精確感知測量能力，而且能夠像人類一樣理解萬物之間的聯系、事件發生的邏輯和背后的常識，并且能基于這些人類社會的經驗來做出更好的駕駛策略，真正實現完全無人駕駛。”

能生成、會解釋、可預測：毫末DriveGPT大模型升級帶來七大應用實踐

　　在毫末DriveGPT大模型的最新開發模式和技術框架基礎上，顧維灝同時分享了自動駕駛大模型的七大應用實踐，包括駕駛場景理解、駕駛場景標注、駕駛場景生成、駕駛場景遷移、駕駛行為解釋、駕駛環境預測和車端模型開發。

（毫末DriveGPT應用的七大實踐）

　　顧維灝表示：“毫末DriveGPT大模型的應用，在自動駕駛系統開發過程中帶來了巨大技術提升，使得毫末的自動駕駛系統開發徹底進入了全新模式，新開發模式和技術架構將大大加速汽車智能化的進化進程。”

　　第一、駕駛場景理解，可實現秒級數據篩選，為圖文多模態模型發掘海量優質數據。

（駕駛場景理解：開集語義圖像檢索）

　　原有自動駕駛技術方案在解決Corner case時，都需要先收集一批與此case相關的數據，然后以標簽加人工的方式進行數據標注，即先對圖片打上標簽，然后用標簽做粗篩選、再人工細篩選，成本非常高、效率非常低。現在，毫末采用通用感知大模型，可以利用圖文多模態模型對海量采集圖片進行目標級別和全圖級別的特征提取，變成圖片表征向量，并對這些海量的向量數據建立向量數據庫，可以從百億級別的向量數據庫中找到任意文本對應的駕駛場景數據，實現秒級搜索。

　　基于這一能力，毫末還構建了專有的自動駕駛場景多模態數據集，訓練了毫末的圖文多模態模型，來對如魚骨線、雙黃實線車道線等理解難度較大的駕駛環境特有場景進行專門訓練和學習。

　　第二、駕駛場景標注，實現更高效的Zero-Shot的自動數據標注，讓萬物皆可被認出。

（駕駛場景標注：zeroShot自動標注）

　　原有的自動駕駛感知算法，僅僅能識別人工標注過的有限個品類的物體，一般也就幾十類，這些品類之外的物體都無法識別，通常稱之為閉集（Closed-set）數據。毫末通過圖文多模態大模型將原有僅識別少數交通元素的閉集場景標注，升級為開集（Open-set）場景中進行Zero-Shot的自動標注，從而應對千變萬化的真實世界的各類駕駛場景，實現對任意物體既快速又精準的標注。

　　通過多模態技術對齊圖文表征，再利用大語言模型輔助用于提供開放詞句的表征能力，最終完成Zero-Shot的自動標注。通過該方案，毫末不僅實現了針對新品類的Zero-Shot快速標注，而且精度還非常高，預標注準召達到80%以上。

　　第三、駕駛場景生成，實現無中生有的可控生成技術，讓Hardcase不再難找。

（駕駛場景生成：無中生有的可控生成）

　　為應對海量數據中相關困難場景（Hardcase）數據不足的問題，毫末基于DriveGPT大模型構建了AIGC能力，從而生成平時難以獲取的Hardcase數據。基于毫末豐富的駕駛數據，訓練了駕駛場景的AIGC模型，可通過輸入標注結果，比如路口、大區率彎道等車道線，再以這個標注結果為Prompt來生成對應的圖像。基于這樣的可控生成的圖像，一方面可以通過標注進行更加精細的位置控制，另一方面也讓新生成的數據自帶了標注信息，可以直接用于下游任務的訓練。

　　第四、駕駛場景遷移，通過瞬息萬變的場景遷移技術，實現全天候駕駛數據的同時獲取。

（駕駛場景遷移：輕松獲取全天候駕駛數據）

　　除了基于標注結果的數據生成之外，DriveGPT還可以進行高效的場景遷移。通過引入文字引導，AIGC生成能力可以用單個模型實現多目標場景生成。基于毫末的感知大模型，以真實的采集圖像作為引導，通過文本語言來描述希望生成的目標場景，可實現清晨、正午、黃昏、夜晚等多時間段光照變換，同時也可把晴天轉換為雨天、雪天、霧天等各種極端天氣。通過這種方式，能將采集到的一個場景，遷移到該場景的不同時間、不同天氣、不同光照等各類新場景下，極大地豐富了訓練數據，提高模型在極端場景下的泛化性。

　　第五、駕駛行為解釋，通過引入大語言模型，讓AI解說駕駛場景和駕駛策略。

　　毫末DriveGPT原本對自動駕駛策略解釋的做法是引入場景庫、并對典型場景用人工標注的方式給出駕駛解釋，這次升級則是通過引入大語言模型來對駕駛環境、駕駛決策做出更豐富的解釋，相當于讓AI自己解釋自己的駕駛策略。

　　首先，將感知大模型的結果解碼得到當前的感知結果，再結合自車信息和駕駛意圖，構造典型的Drive Prompt（駕駛提示語），將這些Prompt輸入大語言模型，從而讓大語言模型對當前的自動駕駛環境做出解釋。其次，大語言模型也可以對自動駕駛系統所做出的駕駛行為給出合理的解釋，掌握例如為什么要加速、為什么要減速、為什么要變道等，讓大語言模型能夠像駕校教練或者陪練一樣，對駕駛行為做出詳細的解釋。大語言模型的引入，一方面能解決大模型不可解釋的問題，另一方面也能基于這些駕駛解釋來進行駕駛決策的優化。

（駕駛行為解釋：讓AI解釋自己的駕駛決策）

　　第六、駕駛環境預測，讓DriveGPT具備社會常識，從而可以準確地預測未來場景。

　　DriveGPT原有采用生成式預訓練的方式，使用海量司機駕駛行為進行預訓練以及引入大量司機接管數據座位人類反饋數據進行強化學習，從而基于已有的BEV場景來更好預測生成未來幾秒的BEV場景。但是DriveGPT需要具備像人類一樣對社會常識、社會潛規則的理解，并基于這種潛規則做出更好的預測。因此，除了使用駕駛行為數據，DriveGPT還需要引入大語言模型，才可以在預測規劃中融入人類社會的知識或常識，才能給出更合理的駕駛決策。

　　顧維灝認為：“我們相信，必須要引入大語言模型，才能讓自動駕駛具備常識，而自動駕駛必須具備常識，才能理解人類社會的各種明規則、潛規則，才能跟老司機一樣，與各類障礙物進行更好地交互。”

（駕駛環境預測：更像人類一樣預測未來場景）

　　第七、車端模型開發，把大模型蒸餾成小模型，從而在有限車端算力上得到更好效果。

　　大模型訓練需要依靠云端的海量數據和超大算力，短期內難以直接部署到車端芯片，而如何讓大模型的能力幫助車端提升效果，可以采用蒸餾的方式。第一種蒸餾方法是使用大模型來輸出各類偽標簽，偽標簽既可以作為訓練語料，來豐富車端小模型的訓練數據，也可以作為監督信號，讓車端小模型來學習云端大模型的預測結果；第二種蒸餾方法是通過對齊Feature Map的方式，讓車端小模型直接學習并對齊云端的Feature Map，從而提升車端小模型的能力。基于蒸餾的方式，可以讓車端的感知效果提升5個百分點。

（車端模型開發新模式：把大模型蒸餾成小模型）

純視覺泊車、道路全要素識別、小目標檢測：毫末DriveGPT賦能車端感知提升

　　毫末利用視覺感知模型，使用魚眼相機可以識別墻、柱子、車輛等各類型的邊界輪廓，形成360度的全視野動態感知，可以做到在15米范圍內達到30cm的測量精度，2米內精度可以高于10cm。這樣的精度可實現用視覺取代USS超聲波雷達，從而進一步降低整體智駕方案成本。

（毫末純視覺泊車）

　　基于DriveGPT基于通用感知的萬物識別的能力，毫末對交通場景全要素識別也有了較大提升，從原有感知模型只能識別少數幾類障礙物和車道線，到現在可以識別各類交通標志、地面箭頭、甚至井蓋等交通場景的全要素數據。大量高質量的道路場景全要素標注數據，可以有效幫助毫末重感知的車端感知模型實現效果的提升，助力城市NOH的加速進城。

（毫末城市NOH感知全要素識別）

　　基于DriveGPT的通用語義感知模型能力對通用障礙物的開集場景標注，可實現對道路上小目標障礙物檢測也有較好的效果。毫末在當前城市NOH的測試中，可以在城市道路場景中，在時速最高70公里的50米距離外，就能檢測到大概高度為35cm的小目標障礙物，可以做到100%的成功繞障或剎停，這樣可以對道路上穿行的小動物等移動障礙物起到很好地檢測保護作用。

（毫末城市NOH小目標障礙物檢測）

　　歷屆HAOMO AI DAY的核心主題都是聚焦最硬核的自動駕駛AI技術，這次更是專門聚焦AI大模型對于自動駕駛技術的賦能，提出了探索端到端自動駕駛技術路線的一種新可能。

　　正如顧維灝在結尾說道：“毫末即將成立四周年，一約既定，萬山無阻。毫末人將繼續用AI連接更廣闊的世界，用技術叩問更浩遠的未來。”HAOMO AI DAY成為中國自動駕駛技術的一面旗幟，同時也正在成為毫末向年輕的AI人才發出邀請的最好的一扇窗口。

>>點擊查看今日優惠<<

本文導航