无码毛片一二区视频免费播放,91人人妻人人澡人人爽精品,亚洲熟女性视频野外X

云天勵飛王孝宇：如何高效地獲取最好的數(shù)據(jù)，比模型本身要重要得多

2021年12月11日，由雷峰網(wǎng) & AI 掘金志主辦的第四屆中國人工智能安防峰會，在深圳正式召開。

本屆峰會以「數(shù)字城市的時代突圍」為主題，會上代表城市AIoT的14家標桿企業(yè)，為現(xiàn)場和線上觀眾，分享迎接數(shù)字城市的經(jīng)營理念與技術(shù)應用方法論。

在下午場的演講環(huán)節(jié)中，云天勵飛首席科學家王孝宇發(fā)表了精彩演講。

王孝宇認為，AI的研發(fā)模式有兩大關(guān)鍵點：一是用什么樣的數(shù)據(jù)訓練模型;二是模型如何基于數(shù)據(jù)得到更好的結(jié)果。

過去的研發(fā)模式大都以模型為中心，依賴專家，找數(shù)據(jù)、標注數(shù)據(jù)，然后讓AI博士調(diào)參，如同工業(yè)化時代的“擰螺絲釘”，導致AI無法大規(guī)模產(chǎn)業(yè)化。

同時，過去的研發(fā)范式，大都集中于用更好的技術(shù)建立更好的模型。但幾年之后，業(yè)界發(fā)現(xiàn)所用的技術(shù)越來越趨同，標準化的條件成熟了

事實上，對比不同研發(fā)模型，可以發(fā)現(xiàn)對AI研發(fā)和應用來說，高效地獲取最好的數(shù)據(jù)，比模型本身要重要得多。

究其原因是技術(shù)迭代快，容易被趕上，但數(shù)據(jù)迭代慢，因此如何在最短時間內(nèi)得到可以使模型達到最優(yōu)效果的數(shù)據(jù)集，這才是最重要的。

因此鑒于人力成本和模型標準化條件的成熟，云天勵飛在內(nèi)部打造了一套標準化、流程化、平臺化的模型研發(fā)方式。

云天勵飛大規(guī)模算法研發(fā)的流程是：

第一步，獲取初始模型。通過分布式標注平臺定義任務，再利用被千億、百億級的數(shù)據(jù)訓練出來的大模型和無監(jiān)督學習，配合少量數(shù)據(jù)的標注，得到不錯的初始模型。

第二步，數(shù)據(jù)迭代。在海量還沒有標注好的數(shù)據(jù)中，用技術(shù)、算法找到真正有用的數(shù)據(jù)，用主動學習算法做數(shù)據(jù)擇優(yōu)。

第三步，模型訓練。在云天勵飛的平臺上用一鍵化方式，完成調(diào)整參數(shù)、數(shù)據(jù)挖掘等工作，降低對訓練模型人員的從業(yè)要求。同時讓數(shù)據(jù)、研發(fā)軌跡、開發(fā)技巧都沉淀在平臺上，動作可復用，流程可追溯，降低AI人員高流動性帶來的負面影響。

他認為視覺AI目前還處在拓荒階段，是一片沙漠，沒有變成綠洲，只有等到其變成綠洲時，才能“長”出很多AI企業(yè)，而云天勵飛建立的這套平臺，就是加速沙漠變綠洲的驅(qū)動底座。

以下是王孝宇演講全文，雷峰網(wǎng)AI掘金志作了不改變原意的整理與編輯：

很高興與大家一起分享云天勵飛從事AI研發(fā)十幾年來總結(jié)的一套模型研發(fā)范式，我這次的演講題目是——AI大規(guī)模產(chǎn)業(yè)化實踐。

首先做下自我介紹。我畢業(yè)之后去了硅谷，在NEC Labs做無人車、人臉方面的研究。2015年，我和另外幾人一起去洛杉磯，幫Snap公司創(chuàng)建了AI研究院。2017年，回國之后，我來到了云天勵飛。

2017年的時候，人工智能開始火爆起來，有非常多的應用，像聊天機器人、無人車、人臉識別，健康領(lǐng)域，智慧家居、AR等。但是只有人臉識別有人相信，其他的，不管是業(yè)界還是投資人，都認為是騙子，覺得做不出來什么東西。

時隔五年，再回頭來看行業(yè)，我覺得很有意思。聊天機器人在每個社交網(wǎng)絡平臺，像阿里、京東，現(xiàn)在在電商平臺上都有應用。無人車，慢慢也有Robotaxi的落地，現(xiàn)在也有很多企業(yè)在這方面興起。在健康領(lǐng)域，五年前我們還在討論IBM沃森的失敗，當時折騰了很大的動靜，但現(xiàn)在有很多這方面的優(yōu)秀企業(yè)興起。

當時美國一些知名的AR公司也倒閉了，但現(xiàn)在很多公司把自己的名字改成元宇宙，又火了起來，AR又讓大家看到了希望。

這些變化其實印證了我的一個觀點：不要高估AI帶來的改變，也不要低估AI帶來的影響，我們是在這片沙漠里墾荒的一批人。

在墾荒的過程中，我們回過頭來看AI，落地應用的最大瓶頸是什么?

人才太貴了。

六年前，我們招聘AI博士的時候，給到40萬美金一年，光是養(yǎng)一群技術(shù)人員，每年的人力成本就是一個巨額數(shù)字。但是現(xiàn)在，這項成本正在降低，究其原因，是AI的研發(fā)模式發(fā)生了變化。

AI的研發(fā)模式，有兩個關(guān)鍵點。首先，有什么樣的數(shù)據(jù)訓練模型;其次，如何用各種技術(shù)基于數(shù)據(jù)來讓模型取得更好的效果。

過去，大家把重心放在模型上，需要數(shù)據(jù)就要找，不停標注，標注完以后，就是專家干的事了，天天調(diào)模型參數(shù)、損失函數(shù)、優(yōu)化器，很多AI博士畢業(yè)之后就干這個事。

這個事其實跟工業(yè)化時代擰螺絲釘?shù)墓ぷ鳑]太大區(qū)別，但沒有博士相關(guān)的學習經(jīng)歷，還干不了這個事，所以很難規(guī)?；?、產(chǎn)業(yè)化。

我們之前的研發(fā)范式，都是集中用更好的技術(shù)建立更好的模型上的，但現(xiàn)在不是那么回事了。

12月8日，Andrej Karpathy 發(fā)了一個推文，他是李飛飛的學生，畢業(yè)之后去了特斯拉，擔任無人駕駛總監(jiān)。他說，現(xiàn)在的AI技術(shù)都趨同了，大家都一樣。

什么意思?

以視覺為例，五六年前，做自然語言處理的有一套技術(shù)，做圖像識別的也有一套技術(shù)，但是做了五年之后，大家發(fā)現(xiàn)做的技術(shù)是一樣的。不管是視覺、語音還是自然語言處理，大家用的都是同一套技術(shù)框架和模型架構(gòu)來解決問題。

最近，機器學習領(lǐng)域的國際頂尖會議NIPS也提到：慢慢的，那些通用模型的結(jié)構(gòu)，已經(jīng)占據(jù)所有任務的主導地位了。

這有點像通信或編碼時期，大家剛開始是百花齊放的，后來慢慢的，大家都用同一套技術(shù)架構(gòu)解決所有的問題，也就是走向了標準化階段。

如果把這兩個模型研發(fā)的過程放在一起做比較，我認為更重要的，不是模型有多好，而是數(shù)據(jù)有多優(yōu)質(zhì)。

有句話說得好：“巧婦難為無米之炊”，你的廚藝再好，沒有素材做不出任何東西，所以有好的數(shù)據(jù)才是最重要的。

在云天勵飛十多年的研發(fā)過程中，我們發(fā)現(xiàn)，如何高效地獲取最好的數(shù)據(jù)，比模型本身要重要得多。

因為技術(shù)是很容易趕上的，今天這個技術(shù)不行，可能再過三個月、六個月會有新技術(shù)出現(xiàn)，會不停地更新迭代。但數(shù)據(jù)的迭代效率往往沒那么高，而且我們也發(fā)現(xiàn)，在研發(fā)過程中，90%以上的時間是放在數(shù)據(jù)上的，而不是做模型。

由此帶來研發(fā)觀念的轉(zhuǎn)變：之前我們的觀念是招聘最好的人，開發(fā)最好的技術(shù)，達到最好的效果。但實際不是這樣的，如何在最短的時間內(nèi)，得到可以使模型達到最優(yōu)效果的數(shù)據(jù)集，這才是最重要的。

云天勵飛從創(chuàng)立到現(xiàn)在，從來沒有一個研發(fā)任務是，把數(shù)據(jù)收集好，模型做一遍就結(jié)束了，這個模型永遠要在用戶的實際場景中迭代。

怎么在實際場景中迭代?

需要在做的不夠好的地方，把數(shù)據(jù)收集起來。也就是說，數(shù)據(jù)集的分布會慢慢讓模型的精度達到最好。

云天勵飛對研發(fā)部門KPI的制定，不僅僅是訓練出了多少模型，或者說模型的精度是多少。而且明確把數(shù)據(jù)集的產(chǎn)生作為KPI的導向之一，它其實更重要。

優(yōu)秀的開發(fā)者和一般的開發(fā)者之間，對數(shù)據(jù)的認知是不一樣的，優(yōu)秀的開發(fā)者對數(shù)據(jù)有非常良好的認知，模型被數(shù)據(jù)cap得很明顯，在最短的時間內(nèi)拿到最好的數(shù)據(jù)，才能做到最好的模型精度。

為什么說模型大規(guī)模生產(chǎn)?

因為現(xiàn)在面向城市治理算法的應用，已經(jīng)不僅僅是幾個算法模型了。大家經(jīng)常一看，有幾百個模型的需求，但企業(yè)不可能招幾百個人做這個事，所以需要大規(guī)模地跑這些技術(shù)，必須要有平臺化的東西進行研發(fā)。

所以云天勵飛在內(nèi)部打造了一套標準化、流程化、平臺化的研發(fā)方式。

什么叫流程化?

流程化的英文叫Streamline。不需要切換上下文就可以把所有的事情做完，現(xiàn)在美國的創(chuàng)業(yè)非常流行這樣做，RPA也是同樣的思路，做機器人流程自動化，把業(yè)務的流程放在無縫銜接的框架下完成。

只有在這種情況下，效率才是最高的，不需要一會兒做這個事，一會兒做那個事，頻繁切換會影響工作效率。

標準化(standardization)，把里面跟模型相關(guān)的非標準化的部分全部呈現(xiàn)在技術(shù)上，整個平臺上只剩下標準化的東西。

這樣做的好處是什么?容易學習，所以不需要博士做這個事情，可能本科生甚至是高中生就可以干這個事，從而把博士資源放在更緊要的地方。

平臺化(platform)，這也是整個軟件行業(yè)的趨勢。

云天勵飛王孝宇：如何高效地獲取最好的數(shù)據(jù)，比模型本身要重要得多

這張圖是我們大規(guī)模算法研發(fā)的流程：

第一步，搜集數(shù)據(jù)，這時候數(shù)據(jù)是沒有標注的。

第二步，做數(shù)據(jù)標注;

第三步，模型訓練;

第四步，data mining，有了初始模型后，在海量沒有標注的數(shù)據(jù)里找到可以提高性能的數(shù)據(jù);

第五步，再進行標注。

如果把這個平臺分成三步，前兩步就是做初始模型的建立，后面就是做完整閉環(huán)，像飛輪一樣，它在不停地轉(zhuǎn)，每轉(zhuǎn)一次都可以得到更好的精度。這個轉(zhuǎn)法是在我們平臺上實現(xiàn)的，不需要專家級別的人專門來做。

第一步，獲取初始模型。

首先我們有分布式標注平臺，開發(fā)人員可以定義一個任務。比如做街道下水道井蓋有沒有被人拿走的檢測，也許我們會標注10-20個數(shù)據(jù)。

標注之后怎么辦?這是學術(shù)界和工業(yè)界很火的大模型和無監(jiān)督學習。

為什么我們在這里面放了大模型和無監(jiān)督學習?剛才我們講到，一開始我們想做井蓋被人拿走的事實檢測，我們一開始可能沒有這么多標注好的數(shù)據(jù)，可能只有100個，但數(shù)據(jù)標注的效率可能是萬分之一。

如果你想標1萬個這樣的數(shù)據(jù)，需要標1億個data，這個量非常大。怎么辦?

先標100個，為什么要用大模型和無監(jiān)督學習配合這個數(shù)據(jù)去跑模型?就是為了讓你初始模型的精度達到最高。

無監(jiān)督和大模型最好的方式，本來100個數(shù)據(jù)訓練出來的精度只有30%，用大模型和無監(jiān)督學習的方法訓練之后，精度可以達到80%，那挖掘數(shù)據(jù)的效率可以提高10倍，也就是說我少標了10倍的數(shù)據(jù)，一切都是為了后面數(shù)據(jù)迭代的效率來做的。

為什么大模型和無監(jiān)督學習可以提高這個性能?雖然它自己沒有標注數(shù)據(jù)，但它是被千億、百億級的數(shù)據(jù)訓練出來的，知道井蓋是什么樣的，這種特征的編輯其實已經(jīng)實現(xiàn)了，再配合少量數(shù)據(jù)的標注，就可以得到一個還不錯的初始模型。

為什么要得到還不錯的初始模型?因為數(shù)據(jù)迭代的效率會更高，首先是為了第一步方便。

第二步，我們不說模型迭代，而是數(shù)據(jù)迭代，因為我們認為模型的訓練已經(jīng)被標準化了，在平臺上，點個按鈕它就訓練好了，不需要有模型訓練的知識，我們專家的系統(tǒng)已經(jīng)把它做好了。

所謂的數(shù)據(jù)迭代，就是在海量還沒有標注好的數(shù)據(jù)中，找到能夠提高模型性能的數(shù)據(jù)，進行主動學習。

傳統(tǒng)模型研發(fā)的范式是缺數(shù)據(jù)再去標，但發(fā)現(xiàn)標過來的數(shù)據(jù)跟以前的分布是一樣的，對模型的分布沒有太大用處。所以需要用技術(shù)、算法找到對自己真正有用的數(shù)據(jù)，右邊我們從海量數(shù)據(jù)中找出了9張有用的數(shù)據(jù)。

模型挖掘怎么做?在左邊平臺界面，點一個按鈕，選一個數(shù)據(jù)集，可以自動在這里面挖掘，從幾億的數(shù)據(jù)里找到幾張跟井蓋相關(guān)的數(shù)據(jù)做訓練，我們是用主動學習算法做數(shù)據(jù)擇優(yōu)的。

云天勵飛王孝宇：如何高效地獲取最好的數(shù)據(jù)，比模型本身要重要得多

數(shù)據(jù)迭代之后，要做模型訓練，在這個平臺上用一鍵化的方式去做，這就是我們花幾百萬招過來的博士應該干的事情，他們不應該天天調(diào)參數(shù)、挖數(shù)據(jù)，這些事情應該讓平臺去干。

這一步，只要你點訓練，它可以自動訓練，背后怎么訓練?是由開發(fā)者去開發(fā)的。但是在整個平臺上去進行操作的人，不需要知道大規(guī)模模型訓練，這降低了訓練模型人員的從業(yè)要求，只要他知道這是怎么回事，把數(shù)據(jù)拿進去就可以訓練，無代碼一鍵完成模型開發(fā)。

做這種平臺研發(fā)環(huán)境的好處是什么?數(shù)據(jù)沉淀在平臺上，動作可復用，流程可追溯。這里面有幾個界面：數(shù)據(jù)集管理、模型管理、任務管理。

數(shù)據(jù)集管理，就是一些標注好的數(shù)據(jù)集，以及挖掘、生成的數(shù)據(jù)集;模型管理，就是訓練好的模型;任務管理，可以是標注任務，也可以是挖掘任務，也可以是訓練任務，所有研發(fā)的軌跡全部停留在這里面。

為什么要做這個事?很簡單，因為人力成本太高，企業(yè)無法招聘太多人從事每一個算法的研發(fā)。有了這套平臺之后，我們可以實現(xiàn)非算法人員開發(fā)模型的方式，讓算法工程師做更高級別的技術(shù)，這些平臺話、流程化的事情，可交給一般的技術(shù)人員或者學生來做。

整個過程中，我們認為沉淀更多的是數(shù)據(jù)價值，這比模型的價值更大。

為什么數(shù)據(jù)的價值比模型的價值更大?

數(shù)據(jù)沒有了，模型是訓練不出來的，你不會再得到提高，即使得不到模型，數(shù)據(jù)在這兒，所以很容易再訓練一個模型出來。

數(shù)據(jù)的重要性遠遠高于模型的重要性，所謂持續(xù)性的研發(fā)，沉淀出來的是有價值的數(shù)據(jù)，而不是其他。

因為模型很容易重新訓練，或者用不同的數(shù)據(jù)迭代。但數(shù)據(jù)日積月累需要很長的時間。在整個平臺上，通過數(shù)據(jù)不停的挖掘、訓練、標注、迭代，會一輪一輪增加新的數(shù)據(jù)，為每個任務沉淀出非常優(yōu)質(zhì)的數(shù)據(jù)集。

也就是說，在這個平臺上，數(shù)據(jù)變成了最重要的資產(chǎn)。

另外，所有的開發(fā)技巧也沉淀到平臺上了。

如果大家搞研發(fā)管理，就會發(fā)現(xiàn)一個現(xiàn)象：部分人能做得特別好，部分人怎么都做不好。這是因為，任務、指令都是一樣的，但不同的人研發(fā)經(jīng)驗是不一樣的。

人才的素質(zhì)屬于不可控因素，如果把這套技術(shù)能力進行沉淀，每個模型研發(fā)過程都能實現(xiàn)可追蹤，這樣就能讓做不好的人，通過學習，把事做好。

這樣做的另一個好處是，不會因為人才流失導致既有的模型失效。

所有公司都會面臨人員流動這個問題，一位優(yōu)秀員工離職之后，其模型很難復現(xiàn)，因為別人不知道這個模型怎樣迭代才達到現(xiàn)有的精度，上下銜接很困難，費時費力。

但是在這個平臺上，就不會出現(xiàn)問題。模型訓練過程中所做的所有數(shù)據(jù)的標注、操作，全部都在這個平臺上，主要進行相關(guān)操作，全部流程都可以重復，不需要重新做。

在座如果有做研發(fā)管理的，肯定會感覺這個東西用起來非常不錯。

現(xiàn)在，云天勵飛內(nèi)部的研發(fā)，除了一些非常高難度的，或者非要人工介入的算法研發(fā)(如人臉)，其他的算法研發(fā)全部依賴于大規(guī)模算法開發(fā)平臺。也就是說基本全部不需要算法工程師去做，都是標注人員在做。

以大堂搬運貨物檢測案例為例，每個工程師大概開發(fā)成本50萬，一個月的時間差不多5萬塊錢的投入，但現(xiàn)在只需要1個標注人員，5-7天就可以做完從0到實用部署。

為什么能力稍微差一點，時間反而縮短了?

這就是流程化，所有模型的訓練只在一個平臺上完成。以前的方式，來來回回對接的成本太高，但在這個平臺上，點擊挖掘，自動尋找，再點標注，尋找標注人物，后臺人員標注好，再點訓練，全部就完成了，整個流程即使和非常有算法經(jīng)驗的工程師相比，這個平臺也有4倍以上的提升。

我們憑借這個平臺在深圳做了幾個項目，像龍華智能運算能力平臺。

這里面涉及的算法有上百個，公司不可能在短期內(nèi)招聘幾百個算法人員進行研發(fā)，因為這套平臺當時還沒有做得完備，所以讓2個算法人員、10個標注人員，在6個月的時間把20多個算法開發(fā)全部完成了，成本也降低了很多。

為什么它需要這么多的算法?

這其實是整個城市管理思路的轉(zhuǎn)變：以前是巡視型管理，需要實地巡查，才能發(fā)現(xiàn)、處理;現(xiàn)在布置相關(guān)攝像頭，就能在后臺發(fā)現(xiàn)，從而解決。

這種管理思路的轉(zhuǎn)變，需要大量算法技術(shù)能力的支撐。云天勵飛在龍崗算法倉做了一個項目，也是算法訓練與賦能平臺，這里面也有上百種算法的需求。

需要強調(diào)的是，這套研發(fā)平臺沒有犧牲模型的精度，不同的人群訓練這套模型沒有太大差別，因為在這個平臺里，可以通過主動學習算法，基于數(shù)據(jù)集做快速迭代，從而得到比較高的檢測精度。

最后提一點，云天勵飛為什么要建立這套平臺?

從行業(yè)看，視覺AI還處在拓荒階段，仍然是一片沙漠，沒有變成一片綠洲，只有等到它變成綠洲的時候，才能長出一顆顆參天大樹，長出許多AI企業(yè)。

城市治理對于算法的需求是成千上萬的，每個算法都靠有經(jīng)驗的人員去開發(fā)，成本會非常高昂，因此云天勵飛開發(fā)了這套系統(tǒng)，縮減成本的同時，加快AI應用的進程。

可以設想，未來的城市，有一張網(wǎng)絡可以檢測方方面面，所有的事件都可以在城市大腦里解決。

這背后的技術(shù)邏輯是，算法可以做智能調(diào)度。比如對著大海的攝像頭，不用把汽車檢測的算法集成到攝像頭上，當城市擁有一萬種算法時，可以在不同場景下，調(diào)度合適的算法，來解決問題。

云天勵飛的愿景是，通過知識圖譜和整個平臺的研發(fā)，讓城市超腦實現(xiàn)自我進化，從而達到更高的智能化水平。

值得一提的是，云天勵飛的自進化城市智能體的思路，已經(jīng)被寫入深圳市政府工作報告中。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

云天勵飛王孝宇：如何高效地獲取最好的數(shù)據(jù)，比模型本身要重要得多

云天勵飛王孝宇：如何高效地獲取最好的數(shù)據(jù)，比模型本身要重要得多