--關(guān)注、星標「智駕最前沿」、回復(fù)“知識星球”--
↓↓查看:「智駕最前沿」知識星球超百份資料目錄↓↓
在2022的Q4財報會議上,馬斯克曾自信地宣稱在自動駕駛領(lǐng)域特斯拉處于遙遙領(lǐng)先的絕對第一,“拿望遠鏡都找不到第二名”,彼時特斯拉的自動駕駛已經(jīng)跳票6年,《華爾街日報》委婉地表示不再相信馬斯克……
一年后,特斯拉在2024年初開始在一定范圍內(nèi)推送FSD V12,并于同年3月將FSD Beta改名為FSD Supervised,特斯拉智駕團隊負責(zé)人AShok Elluswamy在X(推特)上發(fā)文稱基于“端到端”(“end-to-end”)的FSD V12在數(shù)月的訓(xùn)練時間內(nèi),已經(jīng)完全超過了數(shù)年積累的V11。
圖1.AShok Elluswamy在X(原推特)上發(fā)文
同時FSD V12的推出很快得到了業(yè)界的積極回應(yīng),英偉達CEO黃仁勛在接受外媒采訪時高度評價“特斯拉在自動駕駛方面遙遙領(lǐng)先。特斯拉第12版全自動駕駛汽車真正具有革命性的一點是,它是一個端到端的生成模型。”;Michael Dell (戴爾科技集團董事長兼CEO)在X上表示“全新的V12版本令人印象深刻,它就像人類司機一樣”;Brad Porter(曾任Scale AI首席技術(shù)官、亞馬遜機器人副總裁)同樣稱“FSD V12就像是ChatGPT 3.5到來的時刻一樣,它并不完美,但令人印象深刻,你可以看出這是完全不同的東西,迫不及待地期待它進化到GPT4那樣”;就連曾經(jīng)對特斯拉“劍拔弩張”的小鵬汽車董事長何小鵬,在試駕完FSDV12后也在微博上評價“FSD V12.3.6表現(xiàn)極好,要向其學(xué)習(xí)”,并且他還表示“今年的FSD和以前的Tesla自動駕駛從能力上完全是兩個,我非常贊賞”。
圖2.英偉達CEO黃仁勛接受采訪時表示特斯拉自動駕駛遙遙領(lǐng)先
那究竟是什么樣的改動,讓FSD V12如醍醐灌頂般在短短幾個月的時間就超越了過去數(shù)年的積累?這一切都要歸因于“端到端”的加入,而要想系統(tǒng)地了解特斯拉FSD V12前后版本翻天覆地的變化,則要從自動駕駛的基本框架以及FSD V12的前世講起。為了讓大家讀完本文都能有所收獲,我力爭降維到小學(xué)生模式,在保證專業(yè)度的同時增加可讀性,用通俗易懂的表達將自動駕駛的基本框架概念、FSD V12的前世今生講清楚,讓沒有任何專業(yè)背景知識的小學(xué)生也能輕松搞懂。
讀完本文后,你會對當(dāng)下自動駕駛行業(yè)最火且達成共識的“端到端”以及曾經(jīng)爆火的“模塊化”、“BEV鳥瞰圖 +Transformer”、“Occupancy 占用網(wǎng)絡(luò)”等相關(guān)概念有清晰的認知。除此之外,你還會了解特斯拉V12為何是突破性的、為何自動駕駛的ChatGPT時刻即將到來,同時你也會對當(dāng)下自動駕駛行業(yè)發(fā)展到哪一步形成初步的判斷。
初識自動駕駛:模塊化到端到端
1.1 自動駕駛分級
在正式開始前,我們需要對自動駕駛的整體框架有一個了解:目前被國內(nèi)外廣泛接受的自動駕駛分級標準是SAE(國際汽車工程學(xué)會)的分級,從L0-L5共6個級別,隨著級別的上升,車輛對駕駛員手動應(yīng)急接管的需求越來越小,自動駕駛系統(tǒng)的功能也越來越齊全,到了L4、L5級別后便不再需要駕駛員接管駕駛(理論上在這兩個階段,方向盤、踏板都無需安裝)。
圖3.SAE J3016自動駕駛分級
L0級:無自動化
L1級:“部分解放司機雙腳”輔助駕駛
L2級:“部分解放司機雙手”(部分自動化)當(dāng)前發(fā)展階段
L3級:“部分解放司機雙眼”(有條件自動化)當(dāng)前發(fā)展階段
L4級:“解放司機大腦”(高度自動化)
L5級:“無人”(完全自動化)
1.2 自動駕駛設(shè)計理念:模塊化 vs 端到端
了解清楚自動駕駛分級的基本框架后,我們便需要進一步了解車輛是怎樣實現(xiàn)自動駕駛的。自動駕駛的設(shè)計理念可以分為兩類,分別是傳統(tǒng)的模塊化設(shè)計和端到端設(shè)計。在2023年特斯拉的標桿作用下,現(xiàn)在端到端自動駕駛已經(jīng)逐漸成為了行業(yè)和學(xué)術(shù)界的共識。(2023 年 CVPR 最佳論文獎的 UniAD便采用的端到端,體現(xiàn)學(xué)術(shù)界對該設(shè)計理念的認同;自動駕駛行業(yè)中,繼特斯拉后,華為、理想、小鵬、蔚來等多家智駕公司紛紛跟進端到端,代表業(yè)界對該理念的認同。)
1.2.1模塊化
圖4.模塊化架構(gòu)簡潔示意圖
在比較兩個設(shè)計理念的優(yōu)劣前,我們首先來拆解下什么是模塊化設(shè)計:它包含感知、決策規(guī)劃、執(zhí)行控制三大模塊(如圖4所示),研究人員可以通過調(diào)試每個模塊的參數(shù)來使車輛適應(yīng)各種場景。
感知模塊:負責(zé)收集和解釋車輛周圍環(huán)境的信息,通過各種傳感器(比如攝像頭、激光雷達、雷達、毫米波等)檢測和識別周圍物體(比如其他交通參與者、信號燈、道路標志)——感知模塊是自動駕駛的核心,在端到端上車之前大部分的技術(shù)迭代都集中在感知模塊,核心目的就是讓汽車的感知水平達到人類水平,讓你的汽車能夠像你在開車時一樣注意到紅燈、加塞車輛甚至是馬路上的一條狗。
注:在給車輛提供感知信息的部分還包括定位部分,比如有些企業(yè)會使用高精地圖來確定車輛在環(huán)境中的精確位置(但高精地圖成本高、且精確數(shù)據(jù)的獲取有很大難度,不易推廣)。
決策規(guī)劃模塊:基于感知模塊輸出的結(jié)果,預(yù)測其他交通參與者的行為和意圖,并制定車輛的行駛策略,確保車輛能到安全、高效、舒適地到達目的地。這個模塊就像是車輛的大腦(前額葉部分),隨時根據(jù)已輸入的代碼規(guī)則(Rule based)思考著最佳的行駛路徑、何時超車/變道、面對加塞車輛時是讓還是不讓、在感受到紅綠燈時是走還是不走、在看到外賣小哥占道行駛時是超還是不超等問題。——在這部分車輛是基于代碼規(guī)則來進行決策的,舉一個最簡單的例子,車輛的代碼寫入紅燈停綠燈行、見到行人要讓行的指令,那么在對應(yīng)的場景下,我們的汽車便會根據(jù)提前寫好的代碼規(guī)則進行決策規(guī)劃,但如果出現(xiàn)沒有寫進規(guī)則的情況,那么我們的車便不知該如何應(yīng)對了。
控制模塊:執(zhí)行決策模塊輸出的行駛策略,控制車輛的油門、剎車和轉(zhuǎn)向。如果說決策模塊是大腦軍師的話,那么控制模塊就是聽從軍令的士兵,“指哪打哪”。
模塊化的優(yōu)缺點
● 優(yōu)點:可解釋、可驗證、易調(diào)試
■ 因為每個模塊都是相對獨立的,所以當(dāng)我們的車輛出現(xiàn)問題時我們可以回溯究竟是哪個模塊出現(xiàn)了問題;在出現(xiàn)問題后,我們只需要在原有代碼規(guī)則的基礎(chǔ)上調(diào)整對應(yīng)的參數(shù)即可,簡單來說“比如我們自動駕駛的車輛在面對其他車輛加塞時,剎車過猛,那我們只需要調(diào)整加塞情況下,車輛的速度、加速度該如何變化即可”。
● 缺點:傳遞過程中信息損耗、任務(wù)多且散導(dǎo)致低效、存在復(fù)合誤差、規(guī)則難以窮盡導(dǎo)致構(gòu)建和維護成本高。
■ 信息在傳遞過程中存在損耗:傳感器的信息從進入感知模塊再到控制模塊輸出,中間經(jīng)歷了多個環(huán)節(jié),信息在傳遞過程中除了效率變低以外不可避免地會有信息的損耗;舉一個簡單的例子比如在傳話游戲中,第一個人說的是“你好”,經(jīng)過中間幾個人的傳遞后,到最后一個人那里可能變成風(fēng)馬牛不相及的“李吼”。
圖5.傳話游戲示意圖
■ 規(guī)則難以窮盡導(dǎo)致構(gòu)建和維護成本高:大家如果理解了模塊化的基本邏輯后,便知道模塊化是基于規(guī)則的,車輛在道路上做的所有決策背后都是一條一條的規(guī)則,而規(guī)則的背后則是一條一條的代碼,程序員提前將道路上的規(guī)則以代碼的形式寫好,車輛在對應(yīng)情況的時候便根據(jù)寫好的規(guī)則遍歷所有可能選出最優(yōu)解,進行決策進而采取相應(yīng)的行為。
說到這里大家可能覺得沒什么,我們直接把類似于紅燈停、綠燈行的這些規(guī)則都寫進去不就好了,然而工程師很難窮盡路上的所有情況,因為真實的物理世界是一直在變化的,有無數(shù)種排列組合,我們只能預(yù)期到常規(guī)的事情并把它寫進規(guī)則中,但是小概率的極端事件也是會發(fā)生的(比如道路上突然出現(xiàn)一只猴子在和人打架),所以依靠代碼堆疊規(guī)則到最后只能苦嘆一聲“人力有時窮”。
1.2.2 端到端
講完了模塊化,我們接下來就看下目前行業(yè)最認可的端到端究竟是怎么一回事兒。所謂端到端(End-to-End)就是信息一頭進入一頭輸出,中間沒有各個模塊傳輸來傳輸去,一站式搞定。
也就是基于統(tǒng)一的神經(jīng)網(wǎng)絡(luò)從原始傳感器數(shù)據(jù)輸入直接到控制指令輸出的連續(xù)學(xué)習(xí)與決策過程,過程中不涉及任何顯式的中間表示或人為設(shè)計的模塊,不再需要工程師人為寫無窮盡的代碼了,除此之外;其另一個核心理念就是無損的信息傳遞(原來可能是多人傳話游戲,端到端就變成了你說我聽)。
圖6.模塊化vs端到端架構(gòu)簡潔示意圖
我列舉兩個例子來給大家講解模塊化和端到端的區(qū)別:模塊化設(shè)計理念下的車輛就好像是在駕校學(xué)車的、沒有自主意識、且不會主動模仿學(xué)習(xí)的新手司機,教練說做什么他就做什么(編寫代碼規(guī)則),教練跟它說紅燈要停下來、遇到行人要禮讓,它就按照教練的說法做,如果遇到教練沒說過的事兒,它就愣在那里不會處理了(武漢“芍蘿卜”)。而端到端設(shè)計理念下的車輛則是一個擁有自主意識并且會主動模仿學(xué)習(xí)的新手司機,它會通過觀察別人的駕駛行為來學(xué)習(xí),最開始它就像一個菜鳥一樣,什么也不會,但是它是個好學(xué)的孩子,在給它觀看了成百上千萬的優(yōu)秀老司機怎么開車的視頻后,它慢慢就變成了真正的老司機,然后它的表現(xiàn)只能用一個字來形容,那就是“穩(wěn)”!
如圖7所示,基于一條一條代碼規(guī)則驅(qū)動的模塊化設(shè)計理念的車輛,讀到大學(xué)就無法再往上進修了,而基于數(shù)據(jù)驅(qū)動(給車輛看的老司機開車的視頻就是所謂的數(shù)據(jù))的端到端雖然初期是在小學(xué),但它具備很強的成長性和學(xué)習(xí)性(強化學(xué)習(xí)和模仿學(xué)習(xí)),可以很快地進修到博士。(就像余承東評價“Fsd下限低,上限高那樣”,但只要你有足夠多的數(shù)據(jù),給予它足夠多的老司機駕駛的視頻,它不便不會停留在低水平太長時間)。
當(dāng)然,目前圍繞端到端的基本定義仍然存在爭議,“技術(shù)原教旨主義者”認為,市面上很多公司宣傳的“端到端”并不是真正的端到端(比如模塊化的端到端),他們認為真正的端到端應(yīng)該是全局端到端,從傳感器輸入到最后控制信號輸出,中間所有步驟都是端到端可導(dǎo)的,可進行全局優(yōu)化;而“實用主義者”則認為只要基本原理符合,能讓自動駕駛車輛的性能表現(xiàn)提升就可以。
端到端的三大劃分
有的朋友看到這里可能有些懵,端到端也有不同劃分?是的沒錯,目前端到端主要可以劃分成三類(目前存在多種不同劃分,為了便于大家理解,本文只列舉英偉達GTC大會的劃分),如圖8所示可以分成顯式端到端、隱式端到端、基于大語言模型的端到端。
顯式端到端
顯式端到端自動駕駛將原有的算法模塊以神經(jīng)網(wǎng)絡(luò)進行替代,并連接形成端到端算法。該算法包含可見的算法模塊,可以輸出中間結(jié)果,當(dāng)進行故障回溯時可以一定程度上進行白盒化調(diào)整。在這個情況下,便不再需要工程師一行一行去敲代碼來撰寫規(guī)則了,決策規(guī)劃模塊從手寫規(guī)則向基于深度學(xué)習(xí)的模式進行轉(zhuǎn)變。
看起來有些抽象難懂,我們用大白話來講的話就是端到端了但又沒有完全端到端(也叫做模塊化的端到端),而所謂的白盒其實是相對于黑盒而言的,在后面隱式端到的部分我會用新手司機的例子來展開講,這里看不懂不要緊可以先行跳過。
獲得2023年CVPR最佳論文的UniAD模型就是采用的顯式端到端,如下圖所示,我們能夠明顯觀察到各個感知、預(yù)測規(guī)劃等模塊采用了向量的方式進行連接。
注:顯示端到端需要結(jié)合隱式端到端一起理解,不要孤立開;顯式端到端還可以劃分為感知端到端、決策規(guī)劃端到端
隱式端到端
隱式的端到端算法構(gòu)建整體化的基礎(chǔ)模型,利用海量的傳感器接收的外部環(huán)境數(shù)據(jù),忽略中間過程,直接監(jiān)督最終控制信號進行訓(xùn)練。“技術(shù)原教旨主義者”認為如圖9這樣的傳感器信息一頭進入另一頭直接輸出控制信號的端到端才是真正的端到端,中間沒有任何額外模塊。
前面我們提過顯式端到端,通過比較圖8和圖9,能夠看出明顯的區(qū)別就是:隱式一體化的全局端到端中間沒有各個模塊,只有神經(jīng)網(wǎng)絡(luò)存在(傳感器就是它觀看世界的方式,中間的端到端系統(tǒng)就是它的完整的大腦,方向盤、剎車油門就是它的四肢);而顯式端到端不同的地方在于它把中間完整的大腦按照模塊化的方式給分開了,雖然它不再需要編寫代碼去學(xué)習(xí)各種各樣的規(guī)則,已經(jīng)逐漸可以通過觀看老司機視頻的方式學(xué)習(xí),但是,它依舊是分模塊去做的,所以批評的聲音會認為其不是真正意義上的端到端。
但這樣做也有它的好處,我們在前面提到過顯式端到端在一定程度上是白盒的,這是因為當(dāng)我們的車輛通過學(xué)習(xí)涌現(xiàn)出一些我們不期望的糟糕行為時,我們可以回溯究竟是哪個模塊的端到端出現(xiàn)了問題,而作為黑盒模型的隱式端到端則無從下手,因為它是完全一體化的,創(chuàng)造它的人也不知道它為什么會這樣做(這就是大家老在網(wǎng)上聽到的黑盒的大概意思)。
生成式AI大模型的端到端
ChatGPT為自動駕駛帶來了極大的啟發(fā)。它運用無需標注且成本低廉的海量數(shù)據(jù)進行訓(xùn)練,還具備人機互動以及回答問題的功能。自動駕駛可以效仿這種人機互動的模式,輸入環(huán)境方面的問題,它直接輸出駕駛決策,通過基于大語言模型的端到端來完成這些任務(wù)的訓(xùn)練運算。
AI大模型的主要作用有兩點,一是可以低成本生成海量接近真實的、包含Corner Case(自動駕駛過程中很少出現(xiàn)但可能導(dǎo)致危險的異常情況)的多樣化訓(xùn)練視頻數(shù)據(jù),二是采用強化學(xué)習(xí)的方法來達到端到端的效果,從視頻感知到直接輸出駕駛決策。其核心就是模型可以通過自然數(shù)據(jù)自己推理學(xué)習(xí)因果,不再需要標注,模型整體的泛化能力得到大幅度提升,類似ChatGPT那樣,以自回歸的方式從上一個場景預(yù)測下一個場景。
讓我們用更簡單的話來講一下大模型對于端到端的重要性:
目前自動駕駛數(shù)據(jù)庫的價值極低:通常包括兩種數(shù)據(jù),一種是正常行駛情況,千篇一律,占公開數(shù)據(jù)約 90%,如特斯拉影子模式。馬斯克承認這種數(shù)據(jù)價值較低,有效性可能僅萬分之一甚至更低。另一種就是事故數(shù)據(jù)即錯誤示范。用其做端到端訓(xùn)練,要么只能適應(yīng)有限工況,要么會出錯。端到端是黑盒子,無法解釋、只有相關(guān)性,需高質(zhì)量、多樣化的數(shù)據(jù),訓(xùn)練結(jié)果才可能好點。
端到端需先解決數(shù)據(jù)問題,靠外界采集不太可行,因為成本高、效率低且缺乏多樣化和交互(自車與其他車輛、環(huán)境的交互,需昂貴人工標注),因此引入生成式AI大模型,它能制造海量多樣化的數(shù)據(jù),減少人工標注,降低成本。
除此之外大語言模型端到端的核心邏輯是預(yù)測未來發(fā)展,本質(zhì)是習(xí)得因果關(guān)系。當(dāng)前神經(jīng)網(wǎng)絡(luò)與人類有差距,神經(jīng)網(wǎng)絡(luò)是概率輸出,知其然而不知其所以然;人類可通過觀察及無監(jiān)督交互學(xué)習(xí)物理世界運行常識,能判斷合理與不可能,通過少量試驗學(xué)習(xí)新技能并預(yù)測自身行為后果。而生成式AI端到端大模型就是希望神經(jīng)網(wǎng)絡(luò)也具備像人類這樣舉一反三的能力。
舉個例子來說:我們?nèi)祟愃緳C肯定會遇到一些沒有見過但可能有危險的情況,雖然沒有經(jīng)歷過,但是通過往的經(jīng)驗我們可以推斷出這個情況做什么才能保住小命(比如我們可能都沒有經(jīng)歷過路上出現(xiàn)一個霸王龍的現(xiàn)象,但當(dāng)霸王龍真的出現(xiàn)后,我們肯定會抓緊開車逃跑),通過過往經(jīng)驗推測并判斷行為合理與否,這就是我們希望大語言模型端到端做的事情,希望我們的車輛真正地像人一樣開車。
目前由于特斯拉還未召開第三次AI Day,所以我們暫時不清楚特斯拉端到端的具體網(wǎng)絡(luò)架構(gòu),但是根據(jù)特斯拉自動駕駛負責(zé)人Ashok在2023CVPR以及馬斯克本人的一些回復(fù),可以推測特斯拉的端到端模型很有可能是基于大語言模型的端到端(World model)。(期待特斯拉的第三次AI Day)
端到端的優(yōu)缺點
圖10.端到端架構(gòu)簡潔示意圖
● 優(yōu)點:無損的信息傳遞、完全由數(shù)據(jù)驅(qū)動、具備學(xué)習(xí)能力更具范化性
■ 隨著感知、決策規(guī)劃端到端自動駕駛路徑逐漸清晰,端到端為邁向L4無人駕駛提供了想象空間。
● 缺點:不可解釋、參數(shù)過大,算力不足、幻覺問題
■ 如果你用過ChatGPT之類的大語言模型,那你就會知道有些時候它會一本正經(jīng)的胡說八道(也就是幻覺問題),聊天時胡說八道無關(guān)痛癢,但是!如果在馬路上,你的車輛一本正經(jīng)的胡亂開,可是會要人命的!而且因為黑盒問題,你還沒辦法回溯原因所在,這是便是目前端到端急需解決的問題,目前常見的解決方案便是加入安全冗余。
圖11.華為ads3.0本能安全網(wǎng)絡(luò)
■ 除此之外,端到端落地同樣還面臨著算力和數(shù)據(jù)的巨大需求,根據(jù)辰韜資本的報告顯示,盡管大部分公司表示 100 張大算力 GPU 可以支持一次端到端模型的訓(xùn)練,但這并不意味著端到端進入量產(chǎn)階段只需要這一數(shù)量級的訓(xùn)練資源。大部分研發(fā)端到端自動駕駛的公司目前的訓(xùn)練算力規(guī)模在千卡級別,隨著端到端逐漸走向大模型,訓(xùn)練算力將顯得捉襟見肘。而算力的背后就是錢(并且由于美國禁止向中國實體出售高端芯片使這一困境加劇),就像理想汽車的郎咸朋說的那樣,“智能駕駛未來一年10億美元只是入場券”。
講到這里,我們便把自動駕駛最基礎(chǔ)的一些框架性內(nèi)容講完了(因為篇幅有限,故只包含了一小部分),從歷史的眼光回頭看,自動駕駛的進步基本上就是沿著特斯拉既定的路線往前走的(這中間各個廠商會在其原有路線的基礎(chǔ)上有所創(chuàng)新,但本質(zhì)并未偏離),從某種程度上來說,或許能跟住特斯拉本身就是一種能力。接下來,我將會從模塊化和端到端的發(fā)展給大家展開講一下特斯拉FSD V12的前世今生。
特斯拉FSD的前世今生,能跟住特斯拉本身就是一種能力?
2.1特斯拉FSD V12的前世
特斯拉智能駕駛的發(fā)展史在一定程度上反應(yīng)了自動駕駛行業(yè)最重要的一條路線的發(fā)展史,在2014年時,特斯拉發(fā)布第一代硬件Hardware 1.0,軟硬件均由Mobileye(一家以色列的汽車科技公司)提供,然而整體合作隨著2016年特斯拉“全球首宗自動駕駛致命事故”而結(jié)束(這里的核心原因在于Mobileye提供的是封閉黑盒方案,特斯拉不能修改其中的算法,而且還不能與Mobileye共享車輛數(shù)據(jù))。
2016到2019則是特斯拉的自研過渡期。在2019年Hardware升級到了3.0版本,并且采用第一代自主研發(fā)的FSD1.0芯片,增加了影子模式功能,幫助特斯拉收集大量的自動駕駛數(shù)據(jù),為其純視覺路線打下基礎(chǔ)。
2019到2024FSD V12.0大范圍推廣前,是其全面自研時期,2019年算法架構(gòu)向神經(jīng)網(wǎng)絡(luò)升級提出HydraNet九頭蛇算法,2020開始聚焦純視覺-,并在2021和2022的AI Day上接連公布了BEV和Occupancy網(wǎng)絡(luò)架構(gòu),在北美驗證了BEV +Transformer+Occupancy的感知框架,國內(nèi)廠商開始紛紛跟進(這中間差了1-2年左右)。我們在前面提到過,模塊化智能駕駛設(shè)計理念中最核心的部分就是感知模塊,也就是我們要如何讓車輛更好地理解傳感器(攝像頭、雷達、毫米波等)輸入的信息,而上面所提的一堆概念以及特斯拉在FSD V12版本之前做的大部分事情都是在讓感知模塊變得更智能,從某種程度上可以理解為讓感知模塊走向端到端,因為要想讓車能夠自動駕駛,第一步就是讓它真實客觀地感受這動態(tài)變化的物理世界。
其次才是給它制定行駛規(guī)則(決策規(guī)劃模塊),而決策規(guī)劃模塊較為傳統(tǒng),采用蒙特卡洛樹搜索+神經(jīng)網(wǎng)絡(luò)的方案(類似谷歌AlphaGo下圍棋的方案),快速遍歷所有可能性找出勝率最高的那條路徑,其中包含了大量人為輸入的代碼規(guī)則,即根據(jù)大量預(yù)先設(shè)定的人為規(guī)則來在道路中設(shè)想并選擇最佳的軌跡(遵守交規(guī)且不碰撞其他交通參與者),而控制模塊更多是油門剎車方向盤等硬件層面的事情。
因為感知模塊是進步變化最核心的部分,接下來我會盡量用通俗易懂的話講解其中包含的這些概念的基本作用,以及它們分別解決了什么問題(因為文字篇幅有些,所以有所精簡)。
2.1.1特斯拉FSD感知側(cè)的進化
2017年,之前在斯坦福任教的Andrej Karpathy加入特斯拉,標志著特斯拉感知側(cè)端到端的進化拉開序幕:
(1)HydraNet九頭蛇算法—2021年特斯拉AI DAY公布
HydraNet是特斯拉開發(fā)的一種復(fù)雜的神經(jīng)網(wǎng)絡(luò),用來幫助汽車“看見”和“理解”周圍的環(huán)境。HydraNet這個名字來源于希臘神話中的九頭蛇“Hydra”。這個網(wǎng)絡(luò)系統(tǒng)也像多頭蛇一樣,有多個“頭”可以同時處理不同的任務(wù)。這些任務(wù)包括物體檢測、紅綠燈識別、車道預(yù)測等。而它的三大優(yōu)點就是特征共享、任務(wù)解耦、能緩存特征更高效微調(diào)。
特征共享:通俗來講就是基于HydraNet的主干網(wǎng)絡(luò)backbone處理最基本的信息,然后再把處理過的信息共享給它的不同小腦袋(head),好處在于每個“小腦袋”不用重復(fù)處理相同的信息,可以更高效地完成各自的任務(wù)。
任務(wù)解耦:將特定任務(wù)與主干分離,能夠單獨微調(diào)任務(wù);每個“小腦袋”專門負責(zé)一種任務(wù),比如一個負責(zé)識別車道線,另一個負責(zé)識別行人,等等。這些任務(wù)之間互不干擾,各自獨立完成。
能緩存特征更高效微調(diào):通過限制信息流動的復(fù)雜度,確保只有最重要的信息傳遞給各個“小腦袋”,這個“瓶頸”部分能夠緩存重要特征,并加速微調(diào)過程。
(2)BEV(Birds’Eye View鳥瞰視角+Transformer)—2021年特斯拉AI DAY公布
平面圖像走向3D鳥瞰空間
HydraNet幫自動駕駛的車輛完成了識別的工作,而對于車輛周圍環(huán)境的感知則由BEV(Birds’Eye View鳥瞰視角)+ Transformer完成,兩者的結(jié)合幫助特斯拉完成了將八個攝像頭捕捉到的2維平面圖片轉(zhuǎn)換為3D向量空間的工作(也可以由激光雷達完成,但激光雷達的成本要遠遠高于攝像頭)。
鳥瞰圖是一種從上往下俯視的視角,就像你在高空中俯視地面一樣。特斯拉的自動駕駛系統(tǒng)使用這種視角來幫助汽車理解周圍的環(huán)境。通過將多個攝像頭拍攝到的圖像拼接在一起,系統(tǒng)可以生成一個完整的道路和周圍環(huán)境的平面圖(2D)。
而Transformer能將來自不同攝像頭和傳感器的數(shù)據(jù)有效融合,像一個超級聰明的拼圖高手,將不同角度的圖像拼成一個完整的環(huán)境視圖。將這些平面視角數(shù)據(jù)融合成一個統(tǒng)一的3D視角的鳥瞰圖景。這樣,系統(tǒng)可以全面、準確地理解周圍的環(huán)境(如圖14所示)。
而且BEV+Transformer可以消除遮擋和重疊,實現(xiàn)“局部”端到端優(yōu)化,感知和預(yù)測都在同一個空間進行,輸出“并行”結(jié)果。
(3)Occupancy Network占用網(wǎng)絡(luò)——2022年特斯拉AI DAY公布
Occupancy占用網(wǎng)絡(luò)的加入讓BEV從2D變成了真正意義上的3D(如圖16所示),并且在加入時間流信息(基于光流法)之后,完成了由3D向4D的過度。
圖16.Occupancy占用網(wǎng)絡(luò)使EVE變成真正的3D
Occupancy Network占用網(wǎng)絡(luò)引入了高度信息,實現(xiàn)了真正的3D感知。在之前的版本中,車輛可以識別訓(xùn)練數(shù)據(jù)集中出現(xiàn)的物體,但對于未見過的物體則無法識別,而且即使認識該物體,在BEV中也只能判斷其占據(jù)一定程度的方塊面積,而無法獲取實際形狀。Occupancy網(wǎng)絡(luò)通過將車輛周圍的3D空間劃分成許多小方塊(體素),實現(xiàn)了對每個體素是否被占據(jù)的判斷(其核心任務(wù)不在于識別是什么,而是在于判斷每一個體素中是否有東西被占據(jù))。
這就像你在迷霧中開車,雖然看不清楚前面是什么,但你大概知道前面有障礙物,你需要繞過去。
Occupancy Network也是通過Transformer來實現(xiàn)的,最終輸出Occupancy Volume(物體所占據(jù)的體積)和Occupancy flow(時間流)。也就是附近的物體占據(jù)了多大的體積,而時間流則是通過光流法來判斷的。
圖17.光流法
光流法假設(shè)構(gòu)成物體的像素亮度恒定且時間連續(xù),通過對比連續(xù)兩幀圖像中的像素位置變化,最終帶來了4D投影信息。
圖18.投影信息
(4)特斯拉引領(lǐng)感知技術(shù)收斂,國內(nèi)頭部廠商陸續(xù)跟隨
大家讀到這里可能沒有很直接的觸感,但我給大家列舉幾個直觀數(shù)據(jù)
● 2021年FSD V9,第一屆AI Day公布BEV網(wǎng)絡(luò),國內(nèi)2023年BEV架構(gòu)開始上車。
● 2022年第二屆AI Day特斯拉公布Occupancy Network占用網(wǎng)絡(luò),2023-2024年國內(nèi)Occupancy占用網(wǎng)絡(luò)開始上車。
● 2023年特斯拉宣布FSD V12采用端到端技術(shù),2024年國內(nèi)廠商紛紛跟進(采用模塊化的端到端)。
BEV+Transformer解決了自動駕駛車輛對高精地圖依賴的問題:高精地圖和我們?nèi)粘S玫母叩隆俣鹊貓D不一樣(如圖20所示),它精確到厘米級別并且包括更多數(shù)據(jù)維度(道路、車道、高架物體、防護欄、樹、道路邊緣類型、路邊地標等數(shù)據(jù)信息)。它的成本是很高的,需要時時刻刻保證地圖厘米級別的精確性,然而道路的信息總是會有變化的(比如臨時施工),所以就需要長時間進行采集測繪工作。而想依靠高精地圖實現(xiàn)所有城市場景的自動駕駛,是不現(xiàn)實的。大家現(xiàn)在應(yīng)該可以在一定程度上理解BEV帶來的貢獻了(注:特斯拉Lane神經(jīng)網(wǎng)絡(luò)同樣是擺脫高精地圖的關(guān)鍵算法,由于篇幅限制,這里不做過多闡述)
圖20.高精地圖和普通地圖對比
Occupancy Network占用網(wǎng)絡(luò)解決障礙物識別率低的問題:將識別的物體變成4D,無論車輛周圍有什么東西,無論它認識與否,它都可以將其識別出來,避免碰撞問題。而在此之前,車輛只能識別訓(xùn)練數(shù)據(jù)集中出現(xiàn)過的物體。Occupancy Network占用網(wǎng)絡(luò)一定程度上帶領(lǐng)自動駕駛上實現(xiàn)了依靠神經(jīng)網(wǎng)絡(luò)的感知側(cè)端到端,意義重大。
2.2特斯拉FSD V12的今生
在文章開頭我們提到:特斯拉智駕團隊負責(zé)人AShok Elluswamy在X(推特)上發(fā)文稱基于“端到端”(“end-to-end”)的FSD V12在數(shù)月的訓(xùn)練時間內(nèi),已經(jīng)完全超過了數(shù)年積累的V11。
AShok Elluswamy在X(原推特)上發(fā)文
再結(jié)合業(yè)內(nèi)一眾大佬對FSD V12的高度肯定,可以看出FSD V12和V11可以說是兩個東西,因此我以V12為分界線將其分為前世今生。
根據(jù)表1可以看出自從,F(xiàn)SD V12上車之后,其迭代速度遠遠快于之前,30多萬行的C++代碼縮減到幾千行,可以在社交媒體上看到消費者、從業(yè)者都頻繁表示特斯拉FSD V12的表現(xiàn)更像人了。
特斯拉究竟是如何實現(xiàn)的蛻變我們不得而知,但是從AShok Elluswamy在2023 CVPR的演講上或許可以推斷其端到端的模型很有可能是在原有的Occupancy的基礎(chǔ)上構(gòu)建的。“Occupancy模型實際上具有非常豐富的特征,能夠捕捉到我們周圍發(fā)生的許多事情。整個網(wǎng)絡(luò)很大一部分就是在構(gòu)建模型特征。”
從整體思路來看,國內(nèi)模塊化的端到端可能和特斯拉構(gòu)建的大模型端到端存在一定差別。
由于前文已經(jīng)大致講過什么是端到端,因此我們這里不再過多贅述,接下來我想要跟大家聊下為什么說在這場自動駕駛的競賽中,特斯拉目前是處于領(lǐng)先的位置,我們可以通過客觀數(shù)據(jù)來進行對比。
開啟端到端時代后,車企端到端的智駕水平主要由三大因素決定:海量的高質(zhì)量行車數(shù)據(jù)、大規(guī)模的算力儲備、端到端模型本身,與ChatGPT類似,端到端自動駕駛也遵循著海量數(shù)據(jù)×大算力的暴力美學(xué),在這種暴力輸入的加持下,可能突然涌現(xiàn)出令人驚艷的表現(xiàn)。
圖21.端到端時代智駕水平
由于不知道特斯拉是如何實現(xiàn)其端到端的,所以我們這里只討論數(shù)據(jù)和算力
2.2.1特斯拉構(gòu)建的算力壁壘
FSD的發(fā)展史可以說是其算力積累的發(fā)展史,2024年初,馬斯克在X(原推特)上表示算力制約了FSD功能的迭代,而3月開始,馬斯克表示算力不再是問題了。
圖22.馬斯克在X上的推文
Dojo芯片投入量產(chǎn)后,Tesla由原先A100集群不到5EFLOPS的算力規(guī)模迅速提升到全球算力前5水平,并有望于今年10月達到100EFLOPS的算力規(guī)模,約30萬張A100的水平。
再對比國內(nèi)廠商的算力儲備(如圖24所示),可以看到在各種現(xiàn)實因素限制下,中美智能駕駛算力儲備方面的差距還是較為明顯的,國內(nèi)廠商任重道遠。
當(dāng)然算力的背后還意味著巨大的資金投入,馬斯克在X(原推特)上表示今年將在自動駕駛領(lǐng)域投資超100億美元,也許真像理想汽車智能駕駛副總裁郎咸朋說的那樣,“未來一年10億美元只是入場券”。
圖25.馬斯克表示將于2024投資超100億美元在自動駕駛領(lǐng)域
2.2.2特斯拉的高質(zhì)量數(shù)據(jù)
端到端的智能駕駛就像一個潛力極高的小天才,你需要給它投喂大量高質(zhì)量的老司機駕駛視頻,才能讓它快速地成長成開車領(lǐng)域的博士生,而這又是一個大力出奇跡的過程。
馬斯克在財報會中提到訓(xùn)練模型所需的數(shù)據(jù):“100萬個視頻 Case 訓(xùn)練,勉強夠用;200萬個,稍好一些;300萬個,就會感到Wow;到了1000 萬個,就變得難以置信了。”而訓(xùn)練仍需要優(yōu)質(zhì)的人類駕駛行為數(shù)據(jù),得益于特斯拉自身的影子模式,數(shù)百萬輛量產(chǎn)的車輛可以幫助特斯拉收集數(shù)據(jù),并且特斯拉在2022AI Day時便公布其建立了全面的數(shù)據(jù)訓(xùn)練流程:涵蓋了數(shù)據(jù)采集、模擬仿真、自動標注、模型訓(xùn)練和部署等環(huán)節(jié)。截至2024年4月6日,F(xiàn)SD用戶的累計行駛里程已超10億英里。而國內(nèi)任何一家廠商用戶的累積行駛里程都較其相差甚遠。
而數(shù)據(jù)質(zhì)量和規(guī)模要比參數(shù)更能決定模型的表現(xiàn),Andrej Karpathy曾經(jīng)表示過特斯拉自動駕駛部門將3/4的精力用在采集、清洗、分類、標注高質(zhì)量數(shù)據(jù)上,只有1/4用于算法探索和模型創(chuàng)建。由此可見數(shù)據(jù)的重要性。
特斯拉正一步步探索自動駕駛的“無人區(qū)”,將規(guī)模和能力推向極致。
圖26.FSD用戶累計行駛里程超過10億英里
結(jié)語
當(dāng)然,最終效果還是要看車輛的實際上路表現(xiàn)。特斯拉 V12 運行的區(qū)域主要集中在美國,而那里整體的道路交通狀況較好,不像國內(nèi),行人、電動車隨時可能突然竄到馬路上。不過從技術(shù)角度而言,一個能在美國熟練開車的人,沒道理到中國就不會開了。何況學(xué)習(xí)能力是其核心特點之一,或許初步落地時表現(xiàn)不如在美國本土那般出色,但參考FSD V12.5 之前的迭代時間,可能半年到一年后它就能適應(yīng)中國的道路情況了。
這對國內(nèi)廠商的影響頗為重大,就看眾多智駕企業(yè)將如何應(yīng)對特斯拉這個已在美國得到驗證的 FSD V12 了。
參考資料:
1. Mobileye官方資料
2. 2021 Tesla AI Day
3. 2022 Tesla AI Day
4. 特斯拉官方
5. 特斯拉財報電話會議
6. X(推特)推文
7. 辰韜資本《端到端自動駕駛行業(yè)研究報告》
8. 大劉科普「最強」自動駕駛?cè)绾螣挸桑刻厮估璅SD進化史:超深度解讀
9. 甲子光年《2024自動駕駛行業(yè)研究報告:”端到端“漸行漸近》
10. 太平洋證券《汽車行業(yè)深度報告:從蘿卜快跑Robotaxi看特斯拉的AI時刻》
11. 中泰證券《電子行業(yè)|AI全視角-科技大廠財報系列:特斯拉24Q2業(yè)績解讀》
12. 華鑫證券《智能駕駛行業(yè)深度報告:從特斯拉視角,看智能駕駛研究框架》
13. 華金證券《華金證券-智能駕駛系列報告-二-:特斯拉智能駕駛方案簡剖》
14. 開源證券研究所《智能汽車專題報告:算法進階,自動駕駛迎來端到端時代》
15. 國投證券《汽車行業(yè)2024年智駕中期策略:特斯拉打開智駕技術(shù)新高度,降本是國內(nèi)產(chǎn)業(yè)鏈首要目標》
16. Guan, Yanchen, et al. "World models for autonomous driving: An initial survey." IEEE Transactions on Intelligent Vehicles (2024).
17. Li, Xin, et al. "Towards knowledge-driven autonomous driving."arXiv preprint arXiv:2312.04316 (2023).
18. Guan, Yanchen, et al. "World models for autonomous driving: An initial survey." IEEE Transactions on Intelligent Vehicles (2024).
19. Hu, Yihan, et al. "Planning-oriented autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
20. Chib, Pranav Singh, and Pravendra Singh. "Recent advancements in end-to-end autonomous driving using deep learning: A survey." IEEE Transactions on Intelligent Vehicles (2023).
-- END --
聲明:內(nèi)容源自騰訊科技,文中觀點僅供分享交流,不代表本公眾號立場,如涉及版權(quán)等問題,請您告知,將及時處理!