999国内精品永久,国产自产精品乱偷伦视频

自動(dòng)駕駛的進(jìn)程，因?yàn)榇竽Ｐ陀制鸩憽?/P>

近幾年，自動(dòng)駕駛近年發(fā)展迅猛，硬件預(yù)埋軟件持續(xù)迭代的風(fēng)潮下，車載算力急劇增長(zhǎng)快速普及，但軟件端功能進(jìn)化滯后于算力。人們似乎開(kāi)始接受要經(jīng)過(guò)很長(zhǎng)時(shí)間才能發(fā)展到自動(dòng)駕駛。

但 ChatGPT 的出現(xiàn)帶給自動(dòng)駕駛行業(yè)很大啟示。

ChatGPT 作為大語(yǔ)言模型的代表，通過(guò)對(duì)海量多模態(tài)數(shù)據(jù)的大規(guī)模自監(jiān)督學(xué)習(xí)，借助「預(yù)訓(xùn)練+微調(diào)」的方式，讓 AI 可以完成各種復(fù)雜自然語(yǔ)言任務(wù)，甚至通過(guò)了圖靈測(cè)試——自動(dòng)駕駛，被認(rèn)為是下一個(gè)可能實(shí)現(xiàn)突破的領(lǐng)域。

北京智源人工智能研究院院長(zhǎng)黃鐵軍甚至預(yù)測(cè)，三年之內(nèi)可以實(shí)現(xiàn)高級(jí)別自動(dòng)駕駛。

目前，在產(chǎn)業(yè)界很多公司都在「大模型上車」上進(jìn)行探索。一部分自建大模型，商湯發(fā)布的日日新大模型，毫末智行發(fā)布了自動(dòng)駕駛生成式大模型 DriveGPT——雪湖·海若；另一部分公司走聯(lián)合路線，比如小鵬汽車聯(lián)合阿里的大模型建立自動(dòng)駕駛智算中心、斑馬智行接入阿里大模型等。

「大模型上車」目前重點(diǎn)進(jìn)展：

數(shù)據(jù)標(biāo)注——特斯拉等公司，通過(guò)大模型優(yōu)化數(shù)據(jù)標(biāo)注，降低了人工標(biāo)注比例和成本；

仿真優(yōu)化——提升虛擬訓(xùn)練環(huán)境的真實(shí)性，優(yōu)化虛擬訓(xùn)練數(shù)據(jù)；

優(yōu)化感知——利用大模型能力，優(yōu)化多個(gè)環(huán)節(jié)的小模型，提高感知效果；

端到端——利用生成式預(yù)訓(xùn)練大模型技術(shù)，讓自動(dòng)駕駛模擬類似人腦駕駛的能力。

大模型會(huì)如何影響智能駕駛？現(xiàn)在有哪些公司和團(tuán)隊(duì)，已經(jīng)開(kāi)始實(shí)踐「大模型上車」了？它真的能讓無(wú)人駕駛更快到來(lái)嗎？

01.小模型 VS 大模型

智能駕駛行業(yè)，經(jīng)歷了一個(gè)模型「從小到大」的過(guò)程。

目前已量產(chǎn)的智能駕駛，絕大多數(shù)采用的是模塊化架構(gòu)。簡(jiǎn)而言之，模塊化是將智能駕駛系統(tǒng)拆分為多個(gè)典型任務(wù)，并由專門的 AI 模型或模塊處理。

現(xiàn)階段的自動(dòng)駕駛模型框架主要由感知、規(guī)劃決策和執(zhí)行三個(gè)部分組成。感知模塊就像是人的眼睛和耳朵，負(fù)責(zé)對(duì)外部環(huán)境進(jìn)行感知；控制模塊就像人的雙手和雙腳，負(fù)責(zé)最終的加減速、轉(zhuǎn)向等操作；而決策規(guī)劃模塊就像人的大腦，基于接收到的感知等信息進(jìn)行行為決策和軌跡生成。

在此架構(gòu)下，每個(gè)大模塊可能包含多個(gè)小模型的組合。如感知模塊可能包含分類、追蹤和定位等不同 AI 模型，各司其職。

不過(guò)，隨著軟硬件升級(jí)與逐步深入，自動(dòng)駕駛對(duì)于計(jì)算能力和海量數(shù)據(jù)處理能力的需求暴增，傳統(tǒng)各個(gè)小模型「堆疊」的方案，已經(jīng)無(wú)法滿足城市自動(dòng)駕駛的需求。比如，「堆疊」造成信息失真以及算力浪費(fèi)，而每個(gè)小模型的技術(shù)「天花板」也會(huì)導(dǎo)致整體解決方案受限。

舉個(gè)簡(jiǎn)單例子，小模型就像一個(gè)小孩，他非常擅長(zhǎng)看圖和聽(tīng)故事，可以快速地找到圖片中的物品或者聽(tīng)懂一段故事的意思。但是，如果這個(gè)故事太長(zhǎng)或者太復(fù)雜，他可能就會(huì)聽(tīng)不懂或者忘記了。

這個(gè)時(shí)候，大模型開(kāi)始進(jìn)入業(yè)界視野。

2021 年 8 月，特斯拉的 AI 高級(jí)總監(jiān) Andrej Karpathy，在特斯拉 AI DAY 上展示了一項(xiàng)新技術(shù)——基于 Transformer 的 BEV(鳥(niǎo)瞰視角) 感知方案。相當(dāng)于車輛正上方 10-20 米有一個(gè)直升機(jī)俯視車輛與周圍環(huán)境，這是大模型技術(shù)首次應(yīng)用于自動(dòng)駕駛領(lǐng)域，也是特斯拉實(shí)現(xiàn)純視覺(jué)智能駕駛方案的關(guān)鍵。

華為、百度 Apollo、蔚小理、毫末智行、商湯等一眾廠商，甚至像地平線這樣的芯片公司，也都在 BEV+Transformer 上有所布局。例如華為的 ADS 1.0，據(jù)稱已實(shí)現(xiàn)基于 Transformer 的 BEV 架構(gòu)，而最新發(fā)布的 ADS 2.0 進(jìn)一步升級(jí)了 GOD 網(wǎng)絡(luò)，類似于特斯拉的占用網(wǎng)絡(luò)算法。

而大模型則可以比喻成一個(gè)大人，他非常聰明，可以同時(shí)處理許多信息，包括看圖片、聽(tīng)故事和聽(tīng)音樂(lè)等。他可以處理很長(zhǎng)的故事或音樂(lè)，同時(shí)處理多個(gè)任務(wù)。不過(guò)，他需要更多時(shí)間和精力學(xué)習(xí)和處理這些信息。

值得注意的是，Transformer 不等于大模型。它是模型的底座，大模型的架構(gòu)可以基于 Transformer。

02.大模型時(shí)代的數(shù)據(jù)和算法

在特斯拉使用 Transformer 之后，大模型早已經(jīng)不限于智能駕駛感知領(lǐng)域。

目前，智能駕駛已從僅使用模型進(jìn)行圖像感知，使用規(guī)則算法的方式，轉(zhuǎn)變?yōu)楦兄�、融合、預(yù)測(cè)全面使用模型。

其中，這是大模型在智能駕駛領(lǐng)域最先落地的幾個(gè)場(chǎng)景。

數(shù)據(jù)標(biāo)注

自動(dòng)標(biāo)注是大模型最直接的應(yīng)用之一，可以大大降低數(shù)據(jù)標(biāo)注成本。海量高效的數(shù)據(jù)標(biāo)注是算法模型的基礎(chǔ)。隨著智能駕駛的發(fā)展，激光雷達(dá) 3D 點(diǎn)云信息和攝像頭采集的 2D 圖像信息增加，道路場(chǎng)景更豐富，自動(dòng)駕駛的數(shù)據(jù)標(biāo)注類型和數(shù)量不斷增加。

然而，數(shù)據(jù)挖掘難度大，數(shù)據(jù)標(biāo)注成本高。所以，智能駕駛廠商通過(guò)自動(dòng)標(biāo)注優(yōu)化系統(tǒng)效率。例如，特斯拉從 2018 年以來(lái)不斷發(fā)展自動(dòng)標(biāo)注技術(shù)，從 2D 人工標(biāo)注轉(zhuǎn)為 4D 空間自動(dòng)標(biāo)注。隨著自動(dòng)標(biāo)注技術(shù)的成熟，特斯拉的人工標(biāo)注團(tuán)隊(duì)規(guī)模不斷縮小。2021 年該團(tuán)隊(duì)超過(guò) 1000 人，2022 年裁員超過(guò) 200 人。

小鵬汽車和毫末智行也相繼推出自動(dòng)標(biāo)注工具。據(jù)毫末智行 CEO 顧維灝表示，目前獲取車道線、交通參與者和紅綠燈信息，人工標(biāo)注成本約每張圖 5 元，而毫末 DriveGPT 的成本僅 0.5 元。

優(yōu)化仿真

除此之外，自動(dòng)駕駛需要大量的數(shù)據(jù)支持，數(shù)據(jù)積累將長(zhǎng)期內(nèi)是自動(dòng)駕駛的核心競(jìng)爭(zhēng)點(diǎn)。目前，數(shù)據(jù)來(lái)源主要有真實(shí)數(shù)據(jù)、虛擬仿真和影子模式。

除真實(shí)數(shù)據(jù)外，仿真場(chǎng)景是彌補(bǔ)訓(xùn)練大模型數(shù)據(jù)不足的重要方式。虛擬仿真通過(guò) AI 生成道路場(chǎng)景、車輛和行人等信息，對(duì)模型進(jìn)行訓(xùn)練�？捎糜趯�(duì)行車采集的 corner case 進(jìn)行反復(fù)模擬和訓(xùn)練，彌補(bǔ)現(xiàn)實(shí)場(chǎng)景采集信息不足的問(wèn)題。

目前仿真場(chǎng)景主要由游戲引擎生成，基于現(xiàn)實(shí)世界數(shù)據(jù)保證仿真場(chǎng)景與真實(shí)場(chǎng)景的相似度，依靠交通要素的重新組合提高泛化能力。理論上，優(yōu)質(zhì)仿真可替代實(shí)車數(shù)據(jù)收集，降低算法搭建成本并提高迭代速率，但逼真的仿真環(huán)境構(gòu)建和許多長(zhǎng)尾場(chǎng)景的復(fù)現(xiàn)難度大。

大模型有望推動(dòng)仿真場(chǎng)景大幅提升泛化能力，幫助主機(jī)廠提升仿真場(chǎng)景數(shù)據(jù)的應(yīng)用比例，從而提高自動(dòng)駕駛模型的迭代速度、縮短開(kāi)發(fā)周期。

比如特斯拉基于虛幻 4 引擎渲染的仿真環(huán)境，測(cè)試自動(dòng)駕駛系統(tǒng)在極端情況和復(fù)雜環(huán)境中的效果。毫末智行選擇與阿里和德清政府合作，將真實(shí)交通流導(dǎo)入仿真引擎，用于路口場(chǎng)景的調(diào)試和驗(yàn)證。

優(yōu)化小模型

除了數(shù)據(jù)層面，在模塊化的算法部署模式下，感知算法和規(guī)控算法可通過(guò)大模型的加強(qiáng)實(shí)現(xiàn)感知精度和規(guī)控效果的提高。例如，大模型作為車端算法的「老師」，通過(guò)「蒸餾 (教授)」幫助小模型實(shí)現(xiàn)優(yōu)異的性能。所謂「蒸餾」，就像老師教學(xué)生，將大模型或多個(gè)模型集學(xué)到的知識(shí)遷移到另一個(gè)輕量級(jí)的模型上。

比如百度將文心大模型的能力與自動(dòng)駕駛感知技術(shù)結(jié)合，提升車載端側(cè)模型的感知能力百度利用半監(jiān)督方法，充分利用 2D 和 3D 數(shù)據(jù)訓(xùn)練一個(gè)感知大模型。通過(guò)在多個(gè)環(huán)節(jié)對(duì)小模型進(jìn)行蒸餾，提高小模型的性能，同時(shí)通過(guò)自動(dòng)標(biāo)注為小模型定制化訓(xùn)練。大模型可以增強(qiáng)遠(yuǎn)距離視覺(jué) 3D 感知能力、提高多模態(tài)感知模型的感知效果。

端到端一體化

端到端的感知決策一體化算法被認(rèn)為是自動(dòng)駕駛算法終局，預(yù)測(cè)、規(guī)劃、決策都在這個(gè)模型里。所謂「端到端」并不是自動(dòng)駕駛領(lǐng)域獨(dú)有的說(shuō)法，本身是深度學(xué)習(xí)的一個(gè)概念，英文為「End-to-End(E2E)」，簡(jiǎn)單說(shuō)就是一個(gè) AI 模型，只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果，與 ChatGPT 類似。

在智能駕駛領(lǐng)域，端到端并不是新概念，1988 年面世的 ALVINN 自動(dòng)駕駛試驗(yàn)車基于端到端架構(gòu)，在大學(xué)校園實(shí)現(xiàn)最高 70km/h 的自主行駛。目前，許多廠商研發(fā)端到端智能駕駛技術(shù)，除特斯拉外，還有英偉達(dá)和 comma.ai 等。

這一駕駛方案更接近真實(shí)人類駕駛，只需要一個(gè)人來(lái)開(kāi)車，從眼睛看到雙手轉(zhuǎn)方向盤、腳踩剎車或制動(dòng)板，整個(gè)過(guò)程一氣呵成，關(guān)鍵因素是人類的大腦中樞神經(jīng)系統(tǒng)，端到端大模型的作用類似于人類的大腦中樞神經(jīng)系統(tǒng)。

毫末 DriveGPT 底層模型，同樣采用 GPT 這種生成式預(yù)訓(xùn)練大模型技術(shù)，首先通過(guò)引入大規(guī)模駕駛數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，然后使用獎(jiǎng)勵(lì)模型 (Reward Model) 與 RLHF(人類反饋強(qiáng)化學(xué)習(xí)) 技術(shù)對(duì)人駕數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)，對(duì)自動(dòng)駕駛認(rèn)知決策模型進(jìn)行持續(xù)優(yōu)化。

端到端自動(dòng)駕駛，只是實(shí)現(xiàn)自動(dòng)駕駛的最理想技術(shù)方案。目前，端到端大模型還存在許多痛點(diǎn)，最大的痛點(diǎn)是可解釋性差。

03.從 PPT 到落地

然而，大模型和智能駕駛的融合并非一蹴而就。

理想汽車創(chuàng)始人、董事長(zhǎng)兼 CEO 李想認(rèn)為，大模型和智能駕駛可以分為三個(gè)階段：

第一階段是賦能，也就是智能輔助駕駛，賦能駕駛員，讓駕駛更安全、便捷。這個(gè)階段需要進(jìn)行人機(jī)共駕的過(guò)程來(lái)訓(xùn)練大模型；

第二階段是半機(jī)器人。隨著越來(lái)越多的人使用輔助駕駛，智能駕駛會(huì)形成半機(jī)器人。它可以解決酒駕、疲勞駕駛等問(wèn)題，相當(dāng)于垂直領(lǐng)域的專家，可以看作是真正免費(fèi)的司機(jī)；

第三階段是 AGI（通用人工智能）。行為學(xué)習(xí)和認(rèn)知學(xué)習(xí)會(huì)二合為一，大腦和小腦同時(shí)具備，機(jī)器可以獨(dú)立獲取信息，形成自主迭代。雖然無(wú)法預(yù)測(cè)這個(gè)階段何時(shí)到來(lái)，但我們對(duì)此充滿期待。

不過(guò)，大型模型在智能駕駛領(lǐng)域面臨著眾多挑戰(zhàn)：

多模態(tài)數(shù)據(jù)

主要體現(xiàn)在多模態(tài)數(shù)據(jù)、訓(xùn)練和部署等幾個(gè)方面。比如，自動(dòng)駕駛所需傳感器數(shù)據(jù)包括激光雷達(dá)、毫米波雷達(dá)、超聲波雷達(dá)，以及高清攝像頭、IMU、GPS 以及 V2X 等。這些數(shù)據(jù)來(lái)自不同的坐標(biāo)系，帶有不同的觸發(fā)時(shí)間戳，以及要考慮到硬件損壞等問(wèn)題時(shí)；同時(shí)，需要大量的場(chǎng)景數(shù)據(jù)，比如交通標(biāo)志線、交通流、行為模型等等。

算力+芯片難題

從部署方面看，大模型需要高規(guī)格的硬件配置，包含高性能計(jì)算能力、大容量?jī)?nèi)存和低時(shí)延等特點(diǎn)。但車載設(shè)備的硬件條件相對(duì)有限，無(wú)法提供足夠的計(jì)算資源支撐大模型運(yùn)行。

具體來(lái)說(shuō)，大型模型需要超過(guò) 10 億級(jí)的 GPU 計(jì)算能力，例如在自然語(yǔ)言處理領(lǐng)域的 GPT-3 模型就需要數(shù)萬(wàn)億次浮點(diǎn)運(yùn)算（Tops）的計(jì)算能力。這要求芯片的算力至少要在萬(wàn)級(jí) Tops 以上才能夠勝任大型模型的計(jì)算任務(wù)。但是，在車載部署場(chǎng)景下，芯片的算力往往只有數(shù)百 Tops 左右，遠(yuǎn)遠(yuǎn)達(dá)不到大型模型的要求。

同時(shí)，大型模型需要大量的內(nèi)存來(lái)存儲(chǔ)模型參數(shù)和中間狀態(tài)。例如，在自然語(yǔ)言處理領(lǐng)域的 GPT-3 模型中，需要使用 350GB 的內(nèi)存來(lái)存儲(chǔ)模型參數(shù)。但是，在車載部署場(chǎng)景下，芯片的內(nèi)存容量通常只有幾十 GB。

時(shí)延問(wèn)題

此外，大型模型的部署還需要考慮時(shí)延的問(wèn)題。例如，在自動(dòng)駕駛場(chǎng)景下，需要對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)處理和分析，因此需要保證模型的推理速度和響應(yīng)時(shí)間。但是，在車載部署場(chǎng)景下，要求模型的推理時(shí)延要控制在 10ms 級(jí)別。

總的來(lái)說(shuō)，大型模型在智能駕駛領(lǐng)域仍是一個(gè)初級(jí)探索階段，需要進(jìn)行算法優(yōu)化和硬件進(jìn)一步改進(jìn)才能真正落地應(yīng)用。但它給業(yè)界帶來(lái)的期望也很大——有望在未來(lái)讓自動(dòng)駕駛成為真正的「老司機(jī)」。

華為、特斯拉帶頭 車企卷入“大模型”軍備競(jìng)賽

華為、特斯拉帶頭車企卷入“大模型”軍備競(jìng)賽