NeurIPS 2019拉開帷幕 百度大秀NLP、深度學習技術肌肉

2019 年 12 月8 日-14 日,機器學習領域國際頂級會議 NeurIPS 2019于加拿大溫哥華拉開帷幕。此次大會共吸引了全球1萬余名專家學者共赴盛會。本年度,自然語言處理領域在深度學習浪潮下取得了顯著成就,成為大會重要議題之一。

百度舉辦了自然語言處理專題研討會,百度技術委員會主席、自然語言處理首席科學家吳華博士以及多名研究員和工程師,向現(xiàn)場參會者全面介紹了百度在這一領域的長期積累與全新突破?;诰哂型耆灾髦R產(chǎn)權的飛槳平臺,百度自然語言處理在語義計算、閱讀理解、多輪對話、機器翻譯、開放平臺與數(shù)據(jù)等方向均取得了突破性進展,并進行了大規(guī)模產(chǎn)業(yè)化應用。

百度技術委員會主席、自然語言處理首席科學家吳華

預訓練方面,百度提出知識增強的語義表示模型 ERNIE及持續(xù)學習語義理解框架 ERNIE 2.0,在共計 16 個中英文任務上超越 BERT、XLNET,取得了 SOTA 的效果。11月,百度發(fā)布基于ERNIE的語義理解開發(fā)套件。從原理、應用到開源及平臺化,百度在NLP預訓練領域進行了極具價值的創(chuàng)新及實踐。

機器閱讀理解,已成為評估機器語言理解能力的重要方式,也是搜索引擎和對話系統(tǒng)等行業(yè)應用中的關鍵技術。百度建設及發(fā)布了最大規(guī)模的中文閱讀理解數(shù)據(jù)集DuReader;在泛化方面提出訓練框架D-NET,從多模型融合、多任務學習的角度提升模型的泛化能力;

對于對抗樣本的攻擊,提出了一種面向閱讀理解的對抗訓練方法;提出文本表示和知識表示的融合模型KT-NET,以解決需要外部知識和常識的問題。其中具有高魯棒性和遷移能力的閱讀理解模型在今年MRQA 閱讀理解評測中奪得冠軍。

對話方面,提出了基于深度注意網(wǎng)絡的多輪響應選擇匹配模型 DAM(Deep Attention Matching Network),顯著提高了口語理解能力。 在對話系統(tǒng)框架中,百度一方面提供了可編程的對話管理框架,并內置了多個常用標準對話范式,為在云端開發(fā)靈活可變的業(yè)務對話邏輯提供了便利。另一方面,提供了需求分發(fā)和全局記憶機制,支持多個對話任務的集成與聯(lián)動,提高了對話技能的可復用性,降低了新業(yè)務的重復開發(fā)成本。 百度可定制對話技術依托百度大腦 UNIT 3.0 平臺,支持 5 萬多個對話技能,廣泛應用于行業(yè)客戶。

機器翻譯領域,百度相繼提出了多任務學習、多智能體聯(lián)合訓練等前沿方法,并在2019年國際權威WMT評測中取得中英翻譯第一。機器同聲傳譯方面百度走在領域前沿,提出了首個具有預測和可控時延的同傳模型,首個語義單元驅動的上下文同傳模型,并研發(fā)了業(yè)內首個語音到語音的同傳系統(tǒng),為用戶提供高質量、低時延的同傳體驗。值得一提的是,基于在此領域取得的進步,由百度主導,聯(lián)合Google、Facebook、Upenn、清華等海內外頂尖企業(yè)及高校共同組織首屆機器同傳研討會,將在本領域頂級會議ACL 2020召開,并將舉辦國際首屆同傳評測,以進一步促進技術發(fā)展。此外,百度還將在領域權威會議EMNLP 2020中舉辦機器同傳tutorial,就機器同傳的原理、方法、前沿進展進行講座。

百度自然語言處理領域產(chǎn)出的卓越成果背后所運用的底層框架,是自研的開源深度學習平臺百度飛槳。近兩年來,飛槳圍繞深度學習框架的基本功能、性能、芯片支持的完備性等技術指標進行了一系列的易用性開發(fā)和性能迭代,為開發(fā)者提供了優(yōu)于其他深度學習框架的使用體驗。在開發(fā)能力方面,飛槳除了支持對常用API的調用之外,還在編程范式上同時支持聲明式編程和命令式編程,兼具很好的靈活性和穩(wěn)定性,可滿足不同開發(fā)者的開發(fā)習慣,更易上手。在訓練方面,飛槳平臺突破了超大規(guī)模深度學習模型訓練技術,研制了千億特征、萬億參數(shù)、數(shù)百節(jié)點的開源大規(guī)模訓練平臺,實現(xiàn)了萬億規(guī)模參數(shù)深度學習模型的實時更新。在自然語言處理領域,PADDLE-NLP提供了面向6類任務下的30+算法模型,包括上述工作中ERNIE、D-NET等多個國際競賽的冠軍模型。

論文方面,本屆會議計收到6743篇論文投稿,兩年時間翻了一番,再次創(chuàng)下新紀錄。其中1428篇論文入選,入選率僅21.1%。百度共有8篇論文被收錄,覆蓋量化壓縮、對抗訓練等諸多前沿方向。

競賽方面,在NeurIPS 2019: Learn to Move 強化學習賽事中百度再度蟬聯(lián)冠軍,并受邀在Deep RL workshop中進行專題報告。本次比賽的難度非常大,在參賽的近 300 支隊伍中,僅有 3 支隊伍完成了最后挑戰(zhàn)。百度基于飛槳的強化學習框架 PARL 不僅成功完成挑戰(zhàn),還大幅領先第二名(1490 vs 1346)。除了在Best Performance Track獲得了第一,相關技術論文也在該賽事的Machine Learning Track中獲得了Best Paper Reward.

這些無不顯示著百度在NLP領域的技術積累與國際影響力。除了密集的學術交流討論、報告之外,NeurIPS 2019的百度展臺,也吸引了世界各地的參會者。深度學習平臺飛槳獲得廣泛關注,眾多參會者到展臺咨詢使用及合作事宜;百度AI同傳吸引了來自美國、俄羅斯、日本、加拿大等世界各國的參與者們紛紛體驗。

從專題研討、論文分享、競賽報告到多樣的現(xiàn)場系統(tǒng)演示,百度在今年的NeurIPS 2019上深度參與,全面展現(xiàn)了百度的前沿技術進展。以百度為代表的中國AI企業(yè)的頻頻身影,已成為國際人工智能學術頂會中的"新常態(tài)"。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-12-10
NeurIPS 2019拉開帷幕 百度大秀NLP、深度學習技術肌肉
基于具有完全自主知識產(chǎn)權的飛槳平臺,百度自然語言處理在語義計算、閱讀理解、多輪對話、機器翻譯、開放平臺與數(shù)據(jù)等方向均取得了突破性進展,并進行了大規(guī)模產(chǎn)業(yè)化應用。

長按掃碼 閱讀全文