2019年,人們再次談起人工智能時,最常聊到的便是其如何應(yīng)用。因為大家心里都清楚,人工智能要想服務(wù)于企業(yè)和社會,必須先從實驗室中走出來,放下它那神秘高貴的外表,腳踏實地。
然而,就像半導體技術(shù)一樣,在誕生之初,它沒有得到產(chǎn)業(yè)的認可,主要是因為高昂的制作費用,一顆電晶體成本高達10美元,被戲稱作實驗室里的玩具。直到硅提純、精密加工等技術(shù)的發(fā)展,才有了由杰克·基爾比所研發(fā)的現(xiàn)代集成電路,目前10美元可以買數(shù)千萬甚至上億顆電晶體。
人工智能的成本又由何組成呢?它不像芯片一樣擁有明碼標價的BOM,普遍認為其主要來自于研發(fā)人員及工程師的薪資和服務(wù)器維護,事實上這個想法不夠全面。絕大多數(shù)企業(yè)所采取的人工智能技術(shù)名為機器學習,需要有脫敏的訓練數(shù)據(jù)支撐才得以運行。哪怕是實現(xiàn)Hopfield,也需要遠超想象的數(shù)據(jù)量,更何況是現(xiàn)如今那些擁有強魯棒性的模型了。
數(shù)據(jù)采集標注看起來很簡單,無非就是拍個照片標個點,但是真正要操作起來卻根本不是那么一回事。首先要想在足夠短的周期內(nèi)采集到足夠的數(shù)據(jù)量,必須要有足夠的人手配置。假若要10萬張人臉表情照片并且要有300個點需要標注,每人每天貢獻20張合格的素材算是一個較為平均的水平,企業(yè)數(shù)據(jù)采集標注團隊擁有50個人,那么完成這一單生意就需要100天的時長,也就是3個多月。
拿到數(shù)據(jù)后再去復審、訓練,到最后功能上線,少說也要將近半年的時間。這顯然對不上軟件疊代更新的理念。再加上這些人員的培訓組織運營成本等等,一筆合格的數(shù)據(jù)采集業(yè)務(wù)的交付可能高達幾萬甚至數(shù)十萬元。這也是為什么會有一種觀點表示,人工智能不僅不會替代勞動力,反而會增加就業(yè)。
在海外,率先察覺到由人工智能所催生的新一片藍海——數(shù)據(jù)采集和數(shù)據(jù)標注,最早由Appen為代表,后來隨著MightyAI、Scale這樣的公司出現(xiàn),逐漸走向穩(wěn)定。這個爆發(fā)點大約是在2016年,諸如后者這樣的公司,均是在2015、2016這兩年間出現(xiàn)的。而就在最近,Scale AI創(chuàng)始人,華裔22歲青年Alexandr Wang宣布獲得1億美金C輪融資,公司估值超10億美金,成為硅谷新晉獨角獸。
反觀國內(nèi),人工智能的浪潮其實要比國外更為洶涌,然而專業(yè)從事數(shù)據(jù)采集標注的公司發(fā)展卻比較滯后。即便是有幾家相關(guān)的公司,卻多半為自營狀態(tài),和海外服務(wù)眾多AI企業(yè)的平臺模式截然相反。當然,誰都是吃客單生意的,不同并不代表做錯了。
國內(nèi)有一家公司名為龍貓數(shù)據(jù),是國內(nèi)首家以眾包的形式運營采集標注業(yè)務(wù)的。眾包形式的好處就在于人員調(diào)用足夠充沛,相較于傳統(tǒng)的員工制,眾包形式更為靈活。同時,淡季的時候也不用支付員工薪資,減輕了運營成本。
但是眾包形式的缺點在于用戶管理,數(shù)據(jù)采集成員和龍貓之間并沒有勞務(wù)合同,只有平臺運營規(guī)范作為制約。龍貓數(shù)據(jù)因此采取了精細化管理的方式,對用戶進行能力畫像,將不同用戶分配到多個不同環(huán)節(jié),包括數(shù)據(jù)采集和標注、數(shù)據(jù)審查等等。
為了提高數(shù)據(jù)產(chǎn)出的質(zhì)量與效率,配合龍貓數(shù)據(jù)的眾包模式和精細化用戶運營,龍貓數(shù)據(jù)采用了預標注工具和人機交叉數(shù)據(jù)驗證這兩種措施。前者是指,龍貓眾包平臺的AI工具會先對需要標注的數(shù)據(jù)進行預標注,然后再由標注人員對預標注結(jié)果進行微調(diào);后者則指的是龍貓數(shù)據(jù)會對標注好的數(shù)據(jù)進行機器和人的雙重交叉審核,加上合理數(shù)量的抽檢,最終滿足數(shù)據(jù)交付的要求。
借用眾包的模式,從任務(wù)發(fā)布到數(shù)據(jù)交付,這樣一個流程下來,即便是幾十萬數(shù)據(jù)規(guī)模的大單,短短一兩周也就能搞定。
龍貓數(shù)據(jù)也有頭疼的地方,他們有一個客戶是全球非常知名的通信設(shè)備商。根據(jù)GDPR的規(guī)定,凡是消費到GDPR所保護地區(qū)的產(chǎn)品,必須要遵守相關(guān)規(guī)定。這也就使得龍貓在數(shù)據(jù)采集時也要合乎GDPR的標準。為此,龍貓招納了深入了解GDPR的相關(guān)人士。
人工智能飛速發(fā)展為數(shù)據(jù)行業(yè)帶來了大量不同的基礎(chǔ)數(shù)據(jù)需求,龍貓數(shù)據(jù)的客單總體分為兩類:采集標注過的數(shù)據(jù)和沒有采集標注過的數(shù)據(jù)。已有的數(shù)據(jù)再次采集標注是一種資源浪費。于是龍貓數(shù)據(jù)推出了一項數(shù)據(jù)商城服務(wù),即用戶可直接在商城中購買已經(jīng)存在的數(shù)據(jù)集,以便快速拿到數(shù)據(jù)。當然了,數(shù)據(jù)商城的數(shù)據(jù)在復售前都會與客戶簽訂一定的協(xié)議,已保證龍貓數(shù)據(jù)依然合法享有這批數(shù)據(jù)的銷售權(quán)。
類似于知識產(chǎn)權(quán),數(shù)據(jù)在銷售以后還是存在的,也就是說某一企業(yè)在購買數(shù)據(jù)后,它可以將其復制給其他公司。相當于多個企業(yè)只要買一份數(shù)據(jù)就能完成所有的訓練了,在經(jīng)濟學的角度來講,哪怕是購買方銷售了一次數(shù)據(jù),這對于龍貓數(shù)據(jù)來說都是一種損失。區(qū)塊鏈或許是一種解決辦法,不過當下,龍貓把注意力放在了另一件事上。
龍貓數(shù)據(jù)將自己目前的發(fā)展分為了三個層次,第一層次為龍貓1.0,即數(shù)據(jù)標注工具集合。1.0時期,龍貓開發(fā)了基于視覺、音頻、文本這三大領(lǐng)域的標注工具,用于對數(shù)據(jù)進行手動處理,以服務(wù)于機器學習的訓練。第二層為龍貓2.0,在這段時間里,龍貓開始從整體流程上對數(shù)據(jù)采集標注進行優(yōu)化,實現(xiàn)了從接到需求到完成需求的全過程自動化管理,其中非常重要的一部分是對數(shù)據(jù)采集標注任務(wù)的細化拆分,將一個復雜的任務(wù)細化拆分成顆粒度極小的需求,極大提升了需求滿足的時間。
2019年,龍貓數(shù)據(jù)進入了3.0時期,開發(fā)AI預標注工具。目前這種預標注工具主要應(yīng)用在視覺層面,而音頻和文本這兩項業(yè)務(wù)應(yīng)用較少。龍貓數(shù)據(jù)3.0所代表的是全面采用預標注技術(shù)和工具,能夠讓所有數(shù)據(jù)采集標注人員都能使用,從而提高效率,對于龍貓數(shù)據(jù)來說,這種工具的應(yīng)用能夠極大縮短交付周期。
龍貓數(shù)據(jù)3.0會持續(xù)一段時間,隨后便進入4.0時期。在那個時期里,龍貓會全面采用自動化標注工具,用戶只需要對采集數(shù)據(jù)和預標注結(jié)果進行微調(diào),標注及審核、質(zhì)檢工作全面由人工智能所代替。只是這個道路還較為遙遠,現(xiàn)在不好估量。
然而不難想象的是,未來的數(shù)據(jù)采集公司必須要通過工具和預標注來形成自己的技術(shù)壁壘。采集過程主要依靠人來完成,其規(guī)模和效率主要來自于市場運營和任務(wù)獎勵,這也就意味著從采集到產(chǎn)出之間,勞動時間越短,成本也就越少,能夠完成的客單數(shù)量也就越多。
從客戶數(shù)量來看,龍貓現(xiàn)有約200家客戶左右,基于眾包形式的優(yōu)勢,這種數(shù)量級是合理的。畢竟從外部看,在質(zhì)量合格的前提下,自然會選擇產(chǎn)品周期最短,價格最便宜的公司。這種模式也造就了龍貓數(shù)據(jù)客戶復購量大,核心客戶客單價高的局面。
從內(nèi)部看,龍貓數(shù)據(jù)的模式?jīng)]有大幅度變更,反倒是流程發(fā)生了變化,最根本的原因還是在于工具的進化。同時,龍貓自3.0時期開始也不再是一家傳統(tǒng)的數(shù)據(jù)采集標注公司,而是一家人工智能公司。
或許他們想要的是從數(shù)據(jù)基礎(chǔ)服務(wù)到人工智能的發(fā)展轉(zhuǎn)變,由單純的AI數(shù)據(jù)服務(wù)延伸到細分領(lǐng)域整體AI落地。借助AI的力量,將人工智能里最需要人工的部分解放出來,成就人工智能領(lǐng)域最智能的人工。這是他們最擅長的,畢竟他們是人工智能領(lǐng)域的筑基者,他們也最明白如何用好AI這股強大的原生力量。
“只有退潮了才知道誰沒穿褲衩。”這句話被人們說了無數(shù)次,最早能追溯到豆你玩、姜你軍時期。無論是VR、O2O、人工智能都是一樣的道理。
話又說回來了,數(shù)據(jù)采集標注作為人工智能的上游,它也需要人工智能開發(fā)能力,最終形成了一種閉環(huán)。未來會怎樣,沒人說得清楚,但是人工智能的未來絕對不是吹噓自己的算法能有99%的補償、能解決幾百億數(shù)據(jù)量求梯度,而是要從每一比特的數(shù)據(jù)開始積累,直至幾十乃至幾百ZB。
- AI家庭“四大件”重塑家庭生活:中興通訊引領(lǐng)智能共生新潮流
- 紫光國微一季度利潤驟降:2025年Q1凈利潤僅1.19億元,降幅高達61.11%
- 尚網(wǎng)網(wǎng)絡(luò)攜手南京公交集團,共創(chuàng)智慧出行新生態(tài),讓出行更便捷
- 華為發(fā)布AI數(shù)據(jù)湖解決方案:大數(shù)據(jù)領(lǐng)域的新變革,行業(yè)智能化新動力
- 淘寶外賣升級:小時達變閃購,外賣市場再掀波瀾
- 中國電信柯瑞文談云改數(shù)轉(zhuǎn)與AI發(fā)展:探索數(shù)字未來,打造新型競爭力
- 華為智領(lǐng)未來,創(chuàng)新驅(qū)動加速邁向智能世界
- 臺積電巨額虧損仍押注美國建廠,先進產(chǎn)能布局成謎?
- 馬斯克警告:中國汽車銷量超越美歐指日可待,消費實力崛起挑戰(zhàn)全球汽車市場
- 外賣平臺競爭激烈,餓了么推出百億補貼并關(guān)懷騎手,超時扣款取消,看誰能笑到最后
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。