極客網(wǎng)6月24日消息,今天,由汽車創(chuàng)新港、NewCar??W(wǎng)主辦的“預見未來:人工智能和自動駕駛技術論壇”在上海盛大舉行,論壇圍繞人工智能在自動駕駛汽車領域的應用實踐這一話題,深入探討駕駛輔助、自動駕駛、高精度地圖、環(huán)境感知、語音識別、軟件系統(tǒng)等技術難點和重點。極客網(wǎng)作為合作支持媒體,將為您帶來全程報道。
論壇邀請了沃爾沃汽車智能駕駛事業(yè)部高級經(jīng)理張立存博士、地平線機器人智能駕駛業(yè)務總監(jiān)李星宇,亞太機電智能網(wǎng)聯(lián)事業(yè)部 技術總監(jiān)梁濤年博士,QNX大中華區(qū)總經(jīng)理張人杰,吉利汽車主動安全科經(jīng)理李博博士,閱面科技創(chuàng)始人(前阿里巴巴算法總監(jiān))趙京雷博士,慧眼科技 CEO(Imprezzeo創(chuàng)始人)單霆博士,上海傲碩信息科技總經(jīng)理鄭天堂先生,中科慧眼創(chuàng)始人副總經(jīng)理孟然先生做主題分享。
第六位出場演講的是地平線機器人智能駕駛事業(yè)部總監(jiān)李星宇,他演講的標題目是《通往自動駕駛的深度學習之旅》。
以下是演講速記整理內(nèi)容:
之前嘉賓更多關注在自動駕駛應用這個領域,趙博士更專注于機器人這一塊,就是我們究竟應該怎么樣去知道,讓機器了解這個世界,知道了這個世界之后,后面我們?nèi)绾卧谲嚿先盟?/p>
接下來是今天最后一位壓軸嘉賓,來自地平線機器人的李星宇李星宇李總,下面有請李總跟我們分享一下。
李星宇:非常感謝大家還堅持到底,說明對我們這個論壇是真正的有興趣的嘉賓。我是來自于底線線機器人汽車業(yè)務的負責人李星宇,地平線機器人成立有一年的時間,創(chuàng)始人余凱是百度深度學習研究院的院長,也算是國內(nèi)第一個深度學習的研究院是他建立的。他成立了地平線這家公司,專注于深度學習技術的開發(fā),所以在今天我想跟大家分享的主題就是如何將深度學習和自動駕駛結合在一起。
應該說在今年的AlphaGo和李世石的對決當中,大家對于機器人的關注已經(jīng)到了一個非常高的水準,其實自動學習已經(jīng)有不少的時間。今年豐田有做過一個Demo的系統(tǒng),他做了是8輛車并沒有被教任何的駕駛規(guī)則,就是隨意往前開,這8輛車會置于一個訓練系統(tǒng)之下,經(jīng)過八個小時的訓練之后,八個小時下來沒有碰撞,這真是了不起的事情。
通過資本界我們來看,這些10億美元的投入都可以真金白銀的能夠證明整個業(yè)界對于深度學習和增強學習技術的看好。
為什么我們需要把這樣一個技術運用在自動駕駛領域?千言萬語可以歸結為一句話就是復雜性。我們看到很多人在很多時候會質疑自動駕駛這件事情,其實他的質疑覺得就是復雜,你可以看到在十字路口,非常復雜的路況。包括中國進入汽車社會不久,駕駛技術有待提高的特殊的國情,變道非常頻繁,拐彎很多時候也很暴力。這樣一個場景其實對于傳統(tǒng)的ADAS有很大的挑戰(zhàn)性,而這種復雜性恰恰是深度學習的一個優(yōu)勢。
當然很多人也會問,在自動駕駛領域是不是人就沒有作用了?我們很長一段時間在自動駕駛領域,人和車的關系其實并不是一個簡單的服務與被服務的關系,而是人和馬之間的關系。意味著是什么?其實馬并不知道在一個大的方向該怎么走,是快一點還是慢一點,這個是需要人來控制和調節(jié)。而馬能做的就是,無論你告訴還是不告訴,前面是懸崖就會停下來,意味著自動駕駛可以在微觀的一個層面,能夠把風險降到極低的水平。而在高層次的體驗層面,更多的是以跟人配合的關系,它會去理解你。所以在自動駕駛領域很重要的一個話題就是對于駕駛習慣的學習。自動駕駛習慣的學習不僅僅是一個標準的駕駛,還有包括特殊駕駛風格的學習。
這是一個非常標準的美國高速公路管理局的對于自動駕駛的分析,應該說,從我們跟車廠的溝通里面可以看到,現(xiàn)在研發(fā)的重點還是基于Leve13,就是高度的無人駕駛。它的主要不同跟Leve4的不同在于,一個就是保證在任何情況下都可以做緊急碰撞的防止,第二個就是在條件良好的道路上部分實現(xiàn)自動駕駛,從現(xiàn)在實踐的情況來看,高速公路上應該不是有太大的問題?,F(xiàn)在主要解決的是高速公路上的一些特殊的案例和條件比較好的城區(qū)主干上的案例,比如上海的中環(huán)、內(nèi)環(huán)、外環(huán)的情況下,尤其紅綠燈情況下需要一些特殊案例的深度學習。
我們介紹了一個背景之后,稍微回來談一下深度學習為什么會受到重視。大家現(xiàn)在都覺得“深度學習”這個詞特別火熱。第一個為什么它會受到重視?應該說深度學習出現(xiàn)的歷史其實非常久,最久的歷史可以追溯到50年代末,在漫長的發(fā)展時期里面是幾經(jīng)起伏,有它的高潮的時候也有低谷的時代。從現(xiàn)在的情況來看深度學習最具吸引力的一點就是端到端的學習。舉例,以自動學習的系統(tǒng)去識別一個圖片,比如這個圖片讓是一個人,它會把圖片作為輸入一個名字,你可以看到人臉的信息量通常是幾兆,幾百萬個字節(jié),最終輸出的就是幾個字節(jié),就是端到端,可以把非常復雜的非結構化的數(shù)字轉化為精簡數(shù)字化的表達,包括語音、語言、圖像、視頻都是非結構化的,包括金融的交易產(chǎn)生的數(shù)據(jù)都是非結構化的。
從目前的情況來看,第一個它非常適合大數(shù)據(jù)時代,在過去的年代,其實大家也是在研究深度學習的算法,那個時候還不叫深度學習,叫深度神經(jīng)網(wǎng)絡。但是發(fā)現(xiàn)很難把它調校得好,因為那個時候學的都是一個小量的,幾千個樣本,就想把它調到一個非常好的水準,其實是不可能的。后來大數(shù)據(jù)出來以后,這個性能就飆升,最終的一個例子就是2012年的時候愛萊克斯和他的老師參加了圖片分類識別的比賽,一下子從過去的74%提高到了85%,非常大的一個進步。也就是說現(xiàn)在機器對于圖片的識別其實是優(yōu)于人眼,所以實踐效果很好。比較通俗的說法,對于這種行為的一種模擬,這種說法可能不是特別的準確,事實上跟它相關聯(lián)的網(wǎng)絡,按它的類似性來說是非常復雜的,而且現(xiàn)在沒有搞得特別復雜。
機器學習技術前沿,注意力模型。圖片上是對于人臉識別過程的一個描述,如果你拋開技術不看,你直接看,你會看到圖象識別的時候,每過一個識別階段,由很多個識別階段組成。它的圖像的信息會減少一些,最開始會把圖像的彩色性去掉,只留下一個歸錄信息。第二步會把規(guī)錄中間的去掉,只留下邊緣線條的信息,然后線條會變成點,這是從低位空間向高位空間不斷的扭曲的過程,到最后它的圖片信息就會精簡到一個字母,所以這就叫多層的卷積神經(jīng)網(wǎng)絡。大家都知道這樣一個復雜的關系勢必會帶來數(shù)據(jù)極大的產(chǎn)生,因為肯定需要非常大的參數(shù)。
自動學習技術也在不斷的往前推薦,我們現(xiàn)在看到各個領域都全面推進,比如注意力模型,什么叫注意力模型呢?舉例,在雞尾酒酒會上看到很多的人,但是你只跟其中一個或者幾個人談,這個時候你的聽覺系統(tǒng)只會注意到你想關注到的那個人的話,而把其他人的給屏蔽掉。解決了在復雜的語義環(huán)境下,會對特別的語音進行聚焦。當我們對這個婦女說,我要求你把飛盤作為聚焦目標的時候,機器系統(tǒng)可以把飛盤反射出來,也就證明它準確能夠聚焦到你想要它聚焦的部分,這個是非常關鍵的,因為這個系統(tǒng)是非常復雜的,而你只需要自動駕駛的系統(tǒng)關注車輛、車道線、人這些關鍵的信息,這樣一個技術可以使得它很有效的處理。
除了注意力模型以外還有其他的進展,包括長時短時的記憶力模型,這個是做什么用?它會使深度學習,不僅僅是在空間,二維平面上有足夠的學習,它能記住過去發(fā)生的事情。剛才豐田的小車的Demo里面可以看到,它對瞬間場景的處理做得很好,但是有沒有想過如果場景的處理手法依賴于過去的歷史怎么辦,比如我們把魔獸和星際爭霸,下一步的動作取決于你的歷史狀態(tài),這個時候要求你的深度神經(jīng)網(wǎng)絡需要足夠的記憶力,能夠記住過去的狀態(tài),這個記憶力模型就是解決這個問題包括序列化等等。
增強學習,什么是增強學習?打一個比較形象的比方,如果過去的系統(tǒng)我們當做是計劃經(jīng)濟的話,那么增強學習就是市場經(jīng)濟,可以理解它是一種結果導向的技術。準確描述這是一個智能主體跟環(huán)境不斷博弈而來優(yōu)化的一個過程。比如剛才的豐田的小車是一個增強學習的典型的案例,如果它碰撞了給它懲罰,如果沒有碰撞給它獎勵,多輪的循環(huán)會加強這些行為,達到一個期待值。深度學習可以用來做環(huán)境的感知,而增強學習可以用來做控制的東西,這樣就可以構成一個完整的自動駕駛系統(tǒng)。
這是一個非常典型的汽車的自動駕駛系統(tǒng)的框架圖,在圖像的左側有各種各樣的傳感輸入,這個數(shù)據(jù)來源于三個,汽車外圍的環(huán)境數(shù)據(jù),汽車本身的狀態(tài)數(shù)據(jù),比如車速、轉向,還有車內(nèi)人的數(shù)據(jù),是不是疲勞駕駛,是不是要轉彎。一個是感知的融合,一個是決策。
深度學習在中間的感知和決策都是有非常大的優(yōu)勢,可以進一步把這個事情分解一下。我們跟過內(nèi)的主機廠接觸,由于現(xiàn)在國內(nèi)有一些主機廠已經(jīng)開始比較深的自動駕駛的研發(fā),去討論大量的細節(jié)。我們可以簡單把它劃分成這樣的一個板塊,就是態(tài)勢感知和決策控制,態(tài)勢感知一部分就是對外的態(tài)勢,就是你要對整個的環(huán)境要有感知,對內(nèi)就是對駕駛員的意要圖要有感制,包括意圖的判斷。包括對外部物理的辨識,哪些是固定障礙物,哪些是欄桿,哪些是可行駛區(qū)域。對于駕駛包括狀態(tài)的識別這個其實非常重要。這也是整個自動駕駛業(yè)界流派之爭的一個焦點,以谷歌為代表的,他們想做的是全自動駕駛,但是我們還是要一步一步來,這面臨有一個半自動駕駛的過程,谷歌覺得很難做到很好的人工和自動駕駛的切換,沒有辦法把這件事情做得特別的可靠。其實這個我認為要這樣來看,首先主機廠其實已經(jīng)是一定會按照循序漸進的過程來走,因為他們是造車的。第二個在這件事情上深度學習可以很好的幫助緩解這個問題,我們不能說一定能全部解決,至少能夠極大的緩解這件事情。因為深度學習對于駕駛員狀態(tài)的綜合理解比其他的手段要來得更好,因為它是基于大量對于駕駛員技術分析的基礎上建立對它的一個綜合理解,包括他的駕駛習慣、意圖等。
決策控制包括幾個部分,就是對于車輛來講有一個局部的運動路徑的規(guī)劃,另外規(guī)劃里面還有一個駕駛風格的情況,比如需要運動感強一點的,都不一樣。最后一個是執(zhí)行器控制,狀態(tài)之間形成一個閉環(huán)去調校。
應該說在現(xiàn)在有很多初創(chuàng)的公司,包括像英偉達這樣的公司做大量的嘗試,如何把整個的系統(tǒng)用深度學習的方法進行優(yōu)化。英偉達做得比較暴力,直接忽略了中間的決策這一部分,是直接把傳感器的輸入和車的狀態(tài)的輸入直接關聯(lián),做這樣一個預測。也就是說Y就是執(zhí)行器剎車、油門、轉向,輸入就是車的信息、環(huán)境的信息,非常暴力,不做任何中間人工智能的分析。
自動駕駛還有一個非常重要的點,就是如何進行測試,整個自動駕駛來講主要的投入還是在測試這塊,并不是做一套軟件系統(tǒng)就可以了。特斯拉做得很討巧,直接在量產(chǎn)上進行測試,所以短時間內(nèi)積累了超過1.76億英里的速度。但是還是需要一個模擬系統(tǒng)去做這件事情,有一個模擬系統(tǒng),如何在模擬系統(tǒng)各個主體能夠真實的模擬,這其實也是一個增強學習可以幫助你的。當你創(chuàng)造了一個虛擬環(huán)境的時候,你希望用多臺的計算設備去模擬一個目標,模擬幾十個人,模擬路牌等等,每一個都是動態(tài)的過程,它們不斷的變,比如紅綠燈會不斷的變,車輛動態(tài)的變,這樣一個復雜的結構,其實很適合于深度學習和增強學習來做,包括結合模擬。
在這個方面德國的車廠寶馬和奧迪走得比較靠前,當然包括豐田其實也是一樣,做大量的工作,這個是奧迪的汽車大腦的構架圖,AUDI的zFAS。zFAS系統(tǒng)模塊配備了Mobileye的EyeQ3移動處理器以及英偉達TegraK1芯片。奧迪的觀念非常清晰,自動駕駛的關鍵還在學習。
地平線在這塊領域也是進行了大量的工作,我們有一個品牌叫做雨果,這是汽車的一個開放平臺。
(播放視頻)這個是雨果做的整個道路的語義理解,它可以把道路各個不同種類的物體運用不同色彩標識出來,比如柵欄是紅色,道路是綠色,樹木是深綠,汽車是紫色,這樣一個對于道路綜合語義理解對于智能駕駛系統(tǒng)是很關鍵的,很多道路也不是結構化的道路,比如鄉(xiāng)村的道路其實沒有車道線,柵欄也沒有,你沒有辦法通過車道線去自動駕駛,這個時候你要自己去決定該走哪一塊。
這是地平線做的識別,左上角是英偉達的,很遺憾不能秀一下動態(tài)的視頻。地平線是在北京做的測試,在這個路口的人其實非常的密集,地平線很好做了識別,并且對于出租車里面的人,僅僅露一個腦袋的人也可以識別。
對于車輛檢測,地平線從去年8月開始,長期保持在KITTI排名第一的識別率。Densebox就是測試的名字。
地平線是一家專注于算法和芯片開發(fā)的公司,我們在最下端的解決方案,我們更多愿意跟業(yè)界合作伙伴,各類的公司和主機廠一起合作,一起做最后的產(chǎn)品出來。地平線的算法團隊其實蠻國際化的,助力的算法團隊來自于像facebook、百度、中科院。我認為在深度學習領域,我們中國第一次有機會基本上跟國際的主流的開發(fā)的機構處于差不多的一個水平線上,不能說是絕對的齊平,但是不會有太大的差別。
剛才趙總也分享了,為什么我們需要深度學習的芯片,提到很多國內(nèi)公司在宣稱自己在做這個,這是一件好事,因為大家都知道現(xiàn)在的計算結構不合理。比如說舉一個例子,深度學習的輸入是高度密集化的,這種密集化輸入不太適合DSP這種,是流水線的,GPU的一個問題在哪里?在多輸入之后的下一步處理,在數(shù)據(jù)緩沖方面做得不好。很不幸的是深度學習網(wǎng)絡它的輸入是前后關聯(lián)的,在中間隱藏層的時候,這個卷積盒是要跟前置進行卷積計算的,這就意味著首先要取參數(shù)、計算,這就會導致在正常的一般結構下會大量的有外出效應。第二個因為帶寬永遠是有限的。第三個是功耗問題,這些都是非常實際的問題。還有一點就是,深度神經(jīng)網(wǎng)絡的參數(shù)非常多,整個業(yè)界都意識到,如果要在深度學習領域能夠做的話,像地平線得自己做芯片,有點類似于手機業(yè)界,在大約十年前的時候,手機業(yè)界還沒有一個想法說一定要做自己的芯片,但是今天大家已經(jīng)看得非常清楚,如果要想做起來必須做自己的芯片,蘋果、三星、華為都是自己的,如果你不這么做只是使用高通的平臺,你還是可以做,但是很不幸你是第二梯隊。所以在深度學習也是一樣,你還可以用英偉達、高通的芯片,可是這不是第二名和第一名的差距,這是第二梯隊和第一梯隊的差距。因為算法在演進,你如果用別人的話肯定是慢一拍的,這是一個問題。
國內(nèi)有不少公司在做,包括有一家公司叫做(深建科技),最近他們發(fā)表了成績,就是DPU,就是深度學習的處理器,他們在單位功耗下的性能表現(xiàn)是英特爾之前CPU的24000倍,是英偉達GPU的3000倍。而他們所做的優(yōu)化的工作,恰恰是剛才我提到的問題,對于壓縮,對于訪問的優(yōu)化,降低了功耗。地平線也是一樣,我們非常清晰認識到這個問題,所以我們的做法也是這樣,我們地平線也是在做自己的芯片。我們希望在短時間內(nèi)能夠把整個的能耗比提升千倍。
地平線現(xiàn)在專注的深度學習的技術的應用點有哪些?四個大塊,語音、語言、視覺、控制。應該說,這四個緯度可以構成大量的創(chuàng)新的應用,不僅僅是自動駕駛,還包括家庭的服務器的監(jiān)控等等。我們的目標是希望在未來,我們可以用我們自己的算法芯片,跟廣大下游的合作伙伴,比如空調的公司,比如掃地機器人的公司等等合作,能夠覆蓋超過1000個品類的智能產(chǎn)品,我們的目標是為現(xiàn)代的智能硬件真正的賦予智能,所以我們的目標是定義物聯(lián)網(wǎng)時代的大腦。
我的分享就到這里,我們也是非常歡迎大家如果有意可以跟地平線合作,我們提供平臺解決方案,而不是某個具體品類和最終的產(chǎn)品,謝謝大家。
(該演講內(nèi)容全部由現(xiàn)場速記內(nèi)容整理,若有錯誤之處敬請諒解)
- 全球新能源汽車持續(xù)高增長:5月銷量160萬輛,中國單月銷量破百萬
- 向往M8乾崑首批車主交付時刻,MPV可以“乾崑”到什么程度?
- 全球首發(fā)!出發(fā)層VPD技術試點,落地廣州白云機場!
- 比亞迪汽車成國家級贈禮!烏茲總統(tǒng)豪贈42臺,紀念世界杯首次出線
- 極氪7X登頂中國品牌豪華純電SUV銷冠
- 二季度交付量大幅下降21%!特斯拉全球銷量持續(xù)低迷
- 第二十五屆中國專利獎揭曉:比亞迪再獲2項國家級金獎
- 限時先享置換一口價!「10萬級600續(xù)航中級轎車」五菱星光2025款正式上市!
- 尊界S800首搭華為ADS 4:采用全新WEWA技術架構,端到端實現(xiàn)“從人類到超人”
- 尊界S800正式上市:四大維度引領時代,售價70.8萬元起
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。