本文來自微信公眾號【AI商業(yè)報道】
高層速讀
關(guān)鍵信息:MIT-IBM Watson AI Lab正在利用百萬規(guī)模的動作視頻數(shù)據(jù)集訓(xùn)練模型,想要教機器識別游泳、關(guān)門等動作,該數(shù)據(jù)集叫做Moments in Time,可在其網(wǎng)站上下載使用。
關(guān)鍵數(shù)據(jù):Moments in Time內(nèi)含了100萬個標(biāo)注動作的視頻,每個動作類別的視頻數(shù)量均在2000個以上,每段視頻的時間均為3秒。
關(guān)鍵意義:教機器識別動作,將是人工智能的下一重大進展。
我們在看視頻時,很容易理解每一段視頻中所描繪的動作,比如一扇打開的門,一本打開的書,一朵盛開的鮮花或是一只正在打哈欠的狗。而計算機模型卻不能識別到物體的「動作」。
這也是MIT-IBM Watson AI Lab正在研究的項目,該實驗室推出了一個百萬規(guī)模的視頻理解數(shù)據(jù)集:Moments in Time。它內(nèi)含100萬個標(biāo)注了動作的視頻,如拍手、開門、游泳、降落等,每個動作類別的視頻數(shù)量均在2000個以上,每一段視頻的時間是相同的,均為3秒。
Gutfreund 與麻省理工學(xué)院計算機科學(xué)與人工智能實驗室的首席研究科學(xué)家Aude Oliva,是該項目的負責(zé)人,同時,他們也是MIT-IBM Watson AILab的執(zhí)行主任。
Gutfreund 和Aude Oliva正在利用這些視頻片段來推動人工智能的下一重大進展:教機器識別動作。
如何教機器識別動作呢?
一、從動態(tài)的場景中學(xué)習(xí)
研究人員說,他們的目標(biāo)是提供深度學(xué)習(xí)算法,對視覺和聽覺生態(tài)系統(tǒng)進行大量的覆蓋,從而讓模型能夠?qū)W習(xí)非監(jiān)督方式教授的信息,并推廣到新的情境和任務(wù)中。
“當(dāng)我們不再是嬰兒時,我們環(huán)顧四周可以看到人和物體在移動,我們聽到人們和物體發(fā)出的聲音,我們有很多視覺和聽覺的體驗。人工智能系統(tǒng)也需要以同樣的方式進行學(xué)習(xí),并通過動態(tài)視頻來獲取信息。”O(jiān)liva說。
視頻數(shù)據(jù)集中的每一個動作類別都超過2,000個視頻,這些片段使計算機模型能夠更好地了解關(guān)于特定行為和事件的多樣性。
Oliva補充道:“該數(shù)據(jù)集可以作為開發(fā)人工智能模型的新挑戰(zhàn),它可以擴展到人類日常工作的復(fù)雜性和抽象推理的水平。不同的事件包括了不同的人物,對象,動物和自然環(huán)境,它們可能在時間上是對稱的。舉個例子,打開意味著以相反的順序關(guān)閉。它們可以是暫時的,也可以是持續(xù)的?!?/p>
Gutfreund 、Aude Oliva以及MIT和IBM的其他研究人員,經(jīng)常會在一起討論技術(shù)問題,比如如何選擇標(biāo)注的動作類別、在哪里可以找到合適的視頻,以及如何組合數(shù)組等,如此人工智能系統(tǒng)方可毫無偏見地學(xué)習(xí)。
該團隊還開發(fā)了機器學(xué)習(xí)模型,用于擴展數(shù)據(jù)收集。 Oliva說:“我們的合作很好,因為我們有同樣的熱情和相同的目標(biāo)?!?/p>
本文來自微信公眾號【AI商業(yè)報道】
二、增強人類智能
該實驗室的一個關(guān)鍵目標(biāo)是開發(fā)人工智能系統(tǒng),用于解決更復(fù)雜的問題,并從強大和持續(xù)的學(xué)習(xí)中受益?!?strong>我們正在尋找新的算法,使其可以從有限的數(shù)據(jù)中學(xué)習(xí),以增強人類的智力,”IBM Research首席運營官Sophie V. Vandebroek說。
除了將各自的技術(shù)和科學(xué)優(yōu)勢結(jié)合起來,IBM還為MIT的研究人員帶來了大量資源,未來10年,將投資2.4億美元用于人工智能研發(fā)。根據(jù)研究人員的說法,MIT-IBM對AI的研究是有益的。
IBM對MIT在開發(fā)基于視覺的人工智能系統(tǒng)很感興趣,并稱這是一項新奇的事業(yè)。
現(xiàn)在,二者的合作已經(jīng)達到了100萬個動作視頻數(shù)據(jù)集,用戶可以訪問他們的網(wǎng)站,下載數(shù)據(jù)集和深度學(xué)習(xí)模型,用以識別物體動作的研究?!?/p>
到目前為止的定性結(jié)果顯示,其模型能夠很好地識別動作額框架和閉合度,但當(dāng)類別細化或存在背景混亂的情況時,它們會出現(xiàn)問題。Oliva稱,麻省理工學(xué)院和IBM研究人員已經(jīng)提交了一篇文章,描述了在數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的性能,而這個模型本身被共享的觀點深化過的。
Oliva還提到:“IBM研究人員給我們提供了一些想法,讓我們在醫(yī)療保健和體育等領(lǐng)域增加動作的類別,擴大了我們的視野,他們還給了我們關(guān)于AI如何從商業(yè)和消費需求中產(chǎn)生影響的想法?!?/p>
Moments in Time數(shù)據(jù)集的第一版是最大的帶有人類注釋的視頻數(shù)據(jù)集,涵蓋了可視的和可聽的短事件。所有數(shù)據(jù)都被標(biāo)記在339個不同類別中,包括廣泛的常用動詞或者活動標(biāo)簽。
研究人員打算生成更多具有各種抽象層次的數(shù)據(jù)集,以作為開發(fā)學(xué)習(xí)算法的基礎(chǔ),同時讓這些算法可以在事物之間建立類比,通過想象合成新事件,并完成場景解釋。
“換句話說,他們才剛剛開始,”Gutfreund說,“我們希望Moments in Time數(shù)據(jù)集能夠讓模型充分理解視頻中的動作和動態(tài)?!?/p>
微信內(nèi)搜索并關(guān)注公眾號[AI商業(yè)報道],獲得人工智能領(lǐng)域第一手商業(yè)資訊
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機業(yè)務(wù)
- 雅迪集團與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來藍圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。