合成數(shù)據(jù)即將改變人工智能

想象一下,如果有可能以廉價和快速的方式生產出無限量的世界上最有價值的資源。那么,這將會帶來什么樣的巨大經濟轉型和機遇呢?

這這就是今天的現(xiàn)實,它被稱為合成數(shù)據(jù)。

合成數(shù)據(jù)并不是一個新想法,但就現(xiàn)實世界的影響而言,其現(xiàn)在正接近一個關鍵的拐點。它有望顛覆人工智能的整個價值鏈和技術堆棧,并產生巨大的經濟影響。

數(shù)據(jù)是現(xiàn)代人工智能的命脈。獲取正確的數(shù)據(jù)是構建強大 AI 的最重要和最具挑戰(zhàn)性的部分。從現(xiàn)實世界中收集高質量數(shù)據(jù)是復雜、昂貴且耗時的。這就是合成數(shù)據(jù)的價值所在。

合成數(shù)據(jù)是一個非常簡單的概念——其中一個想法似乎好得令人難以置信。簡而言之,合成數(shù)據(jù)技術使從業(yè)者能夠簡單地以數(shù)字方式生成他們需要的數(shù)據(jù),無論他們需要多少數(shù)量,都可以根據(jù)他們的精確規(guī)格定制。

根據(jù)一項廣泛引用的 Gartner 研究,到 2024 年,用于人工智能開發(fā)的所有數(shù)據(jù)中,60% 將是合成的,而不是真實的。

花點時間消化一下。這是一個驚人的預測。

數(shù)據(jù)是現(xiàn)代經濟的基礎。用《經濟學人》的話說,它是“世界上最寶貴的資源”。在短短幾年內,用于人工智能的大部分數(shù)據(jù)可能來自一個顛覆性的新來源——如今很少有企業(yè)了解甚至不知道。

不用說,這將帶來巨大的商業(yè)機會。

合成數(shù)據(jù)初創(chuàng)公司Datagen的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ofir Zuk表示 :“我們可以簡單地說,合成數(shù)據(jù)的總目標市場和數(shù)據(jù)的總目標市場將會融合。”

合成數(shù)據(jù)的興起將徹底改變數(shù)據(jù)的經濟、所有權、戰(zhàn)略動態(tài),甚至(地緣)政治。這是一項值得關注的技術。

從自動駕駛汽車到人臉

雖然合成數(shù)據(jù)的概念已經存在了幾十年,但從 2010 年代中期開始,該技術首次在自動駕駛汽車領域得到了廣泛的商業(yè)應用。

合成數(shù)據(jù)開始出現(xiàn)在自動駕駛汽車領域也就不足為奇了。首先,因為 AV(Audio and Video)領域吸引了更多的機器學習人才和投資資金,甚至可能比任何其他人工智能商業(yè)應用都要多,它通常是合成數(shù)據(jù)等基礎創(chuàng)新的催化劑。

鑒于 AV 世界中“邊緣案例”的挑戰(zhàn)和重要性,合成數(shù)據(jù)和自動駕駛汽車特別適合彼此。為自動駕駛汽車在道路上可能遇到的每個可能場景收集真實世界的駕駛數(shù)據(jù)是不可能的。鑒于世界是多么不可預測和未知情況,實際上需要數(shù)百年的真實駕駛才能收集構建真正安全的自動駕駛汽車所需的所有數(shù)據(jù)。

因此,自動駕駛汽車公司開發(fā)了復雜的模擬引擎來綜合生成必要的數(shù)據(jù)量,并有效地將他們的人工智能系統(tǒng)暴露在駕駛場景的“長尾”中。這些模擬世界可以自動生成任何可以想象的駕駛場景的數(shù)千或數(shù)百萬個排列——例如,改變其他汽車的位置、添加或移除行人、增加或降低車速、調整天氣等等。

多年來,領先的自動駕駛汽車廠商——Waymo、Cruise、Aurora、Zoox——都在合成數(shù)據(jù)和模擬方面進行了大量投資,并將其作為其技術堆棧的核心部分。例如,2016 年,Waymo生成了 25 億英里的模擬駕駛數(shù)據(jù)來訓練其自動駕駛系統(tǒng)(相比之下,從現(xiàn)實世界收集的駕駛數(shù)據(jù)僅為 300 萬英里)。到 2019 年,這一數(shù)字已達到100 億英里。

正如 Andreessen Horowitz 的合伙人 Chris Dixon在 2017 年所說:“現(xiàn)在,你幾乎可以通過他們對模擬的認真程度來衡量自主團隊——無人機團隊、汽車團隊的成熟度?!?/p>

因此,出現(xiàn)的第一批合成數(shù)據(jù)初創(chuàng)公司瞄準了自動駕駛汽車終端市場。其中包括 Applied Intuition(最近估值為 36 億美元)、Parallel Domain 和 Cognata 等公司。

但沒過多久,人工智能企業(yè)家就認識到,為自動駕駛汽車行業(yè)開發(fā)的合成數(shù)據(jù)功能可以推廣并應用于許多其他計算機視覺應用。

從機器人技術到物理安全,從地理空間圖像到制造,近年來計算機視覺在整個經濟中發(fā)現(xiàn)了廣泛的有價值的應用。對于所有這些用例,構建 AI 模型需要大量的標記圖像數(shù)據(jù)。

合成數(shù)據(jù)在這里代表了一個強大的解決方案。

使用合成數(shù)據(jù)方法,企業(yè)可以比其他方法更快、更便宜地獲取訓練數(shù)據(jù)——即從現(xiàn)實世界中費力地收集數(shù)據(jù)。想象一下,在系統(tǒng)上人工生成 100,000 張智能手機圖像比在現(xiàn)實世界中一張一張地收集這些圖像要容易得多。

重要的是,現(xiàn)實世界的圖像數(shù)據(jù)必須先手動標記,然后才能用于訓練 AI 模型——這是一個昂貴、耗時且容易出錯的過程。合成數(shù)據(jù)的一個關鍵優(yōu)勢是不需要手動數(shù)據(jù)標記:因為圖像首先是從頭開始以數(shù)字方式定制的,所以它們會自動帶有“像素完美”的標簽。

計算機視覺的合成數(shù)據(jù)究竟是如何工作的?如何人工生成如此高保真、逼真的圖像數(shù)據(jù)?

合成數(shù)據(jù)核心的一項關鍵人工智能技術被稱為生成對抗網絡或 GAN。

GAN由 AI 先驅 Ian Goodfellow于 2014 年發(fā)明,自那時以來一直是研究和創(chuàng)新的活躍領域。Goodfellow 的核心概念突破是用兩個獨立的神經網絡構建 GAN,然后讓它們相互對抗。

從給定的數(shù)據(jù)集(例如,人臉照片的集合)開始,第一個神經網絡(稱為“生成器”)開始生成新圖像,就像素而言,這些圖像在數(shù)學上與現(xiàn)有圖像相似。同時,第二個神經網絡(“鑒別器”)被輸入照片,而不會被告知它們是來自原始數(shù)據(jù)集還是來自生成器的輸出;它的任務是識別哪些照片是合成生成的。

當這兩個網絡迭代地相互對抗時——生成器試圖欺騙鑒別器,鑒別器試圖停止生成器的創(chuàng)造——它們相互磨練彼此的能力。最終判別器的分類成功率下降到 50%,并不比隨機猜測好,這意味著合成生成的照片已經與原件無法區(qū)分。

2016 年,人工智能巨匠 Yann LeCun稱GAN 是“機器學習過去十年中最有趣的想法”。

推動視覺合成數(shù)據(jù)近期發(fā)展勢頭的另外兩個重要研究進展是擴散模型和神經輻射場(NeRF)。

最初受熱力學概念的啟發(fā),擴散模型通過增加噪聲破壞訓練數(shù)據(jù)來學習,然后找出如何逆轉這種噪聲過程以恢復原始圖像。一旦經過訓練,擴散模型就可以應用這些去噪方法從隨機輸入中合成新穎的“干凈”數(shù)據(jù)。

擴散模型在過去一年中大受歡迎,包括作為DALL-E 2的技術支柱,這是OpenAI 備受討論的新文本到圖像模型。與 GAN 相比,具有一些有意義的優(yōu)勢,預計擴散模型將在生成 AI 的世界中發(fā)揮越來越重要的作用。

與此同時,NeRF 是一種強大的新方法,可以快速準確地將二維圖像轉換為復雜的三維場景,然后可以對其進行操作和導航以生成多樣化的高保真合成數(shù)據(jù)。

為計算機視覺提供合成數(shù)據(jù)解決方案的兩家領先初創(chuàng)公司是 Datagen(最近宣布了 5000 萬美元的 B輪融資)和 Synthesis AI(最近宣布了 1700 萬美元的 A 輪融資)。兩家公司都專注于人類數(shù)據(jù),尤其是人臉;他們的平臺使用戶能夠以編程方式自定義跨維度的面部數(shù)據(jù)集,包括頭部姿勢、面部表情、種族、注視方向和發(fā)型。

AI.Reverie 是這一領域的先行者,去年被 Facebook 收購——這表明大型科技公司對合成數(shù)據(jù)越來越感興趣。早期創(chuàng)業(yè)公司包括 Rendered.ai、Bifrost 和 Mirage。

循環(huán)往復,雖然幾年前自動駕駛汽車為合成數(shù)據(jù)的增長提供了原始動力,但時至今日,自動駕駛汽車行業(yè)仍在繼續(xù)推動該領域的最新發(fā)展。

Waabi 是自動駕駛汽車類別中最引人入勝的新創(chuàng)業(yè)公司之一,他將模擬技術提升到了一個新的水平。Waabi 由曾負責 Uber 的 AV 研究工作的 AI 杰出人物 Raquel Urtasun 創(chuàng)立,去年憑借一支星光熠熠的團隊和超過 8000 萬美元的資金脫穎而出。

Waabi 的目標是通過利用下一代 AI 構建一種新型的自主堆棧,避免更多傳統(tǒng)方法的缺點,從而超越更成熟的 AV 玩家。該堆棧的中心是合成數(shù)據(jù)。

與 AV 領域的其他公司相比,Waabi 沒有大量投資于在現(xiàn)實世界的道路上部署汽車以收集駕駛數(shù)據(jù)。相反,Waabi 大膽地尋求主要通過虛擬仿真來訓練其自主系統(tǒng)。2 月,該公司公開推出了名為Waabi World的尖端模擬平臺。

“在 Waabi,我們在生成合成數(shù)據(jù)方面更進一步,”Urtasun 說?!拔覀儾粌H可以近乎實時地以前所未有的保真度模擬車輛的傳感器,而且我們以閉環(huán)方式進行模擬,以便環(huán)境對我們做出反應,我們也對其做出反應。這對于自動駕駛汽車等機器人系統(tǒng)非常重要,因為我們不僅需要學習感知世界,還需要安全地采取行動。”

語言至上

雖然合成數(shù)據(jù)將改變計算機視覺的游戲規(guī)則,但該技術將在另一個領域釋放更多的轉變和機會:語言。

基于文本的合成數(shù)據(jù)的巨大潛力反映了語言在人類事務中無處不在的基本現(xiàn)實;它基本上是所有重要商業(yè)活動的核心。自然語言處理 (NLP) 的最新進展為整個經濟領域的價值創(chuàng)造提供了幾乎無限的機會。合成數(shù)據(jù)在這里可以發(fā)揮關鍵作用。

以下幾個具體的例子將有助于說明這種可能性。

Anthem 是世界上最大的健康保險公司之一,它使用其大量的患者醫(yī)療記錄和索賠數(shù)據(jù)來支持人工智能應用,例如自動欺詐檢測和個性化患者護理。

上個月,Anthem宣布與 Google Cloud 合作生成大量合成文本數(shù)據(jù),以改進和擴展這些 AI 用例。例如,這個合成數(shù)據(jù)語料庫將包括人工生成的病史、醫(yī)療保健索賠和相關的醫(yī)療數(shù)據(jù),這些數(shù)據(jù)保留了真實患者數(shù)據(jù)的結構和“信號”。

除其他好處外,合成數(shù)據(jù)直接解決了多年來阻礙人工智能在醫(yī)療保健中部署的數(shù)據(jù)隱私問題。在真實患者數(shù)據(jù)上訓練 AI 模型會帶來棘手的隱私問題,但當數(shù)據(jù)被合成時,這些問題就會消失。

Anthem 的首席信息官 Anil Bhatt說:“越來越多……合成數(shù)據(jù)將超越并成為人們未來使用 AI 的方式。”

最近的另一個例子暗示了更具變革性的可能性。

去年年底,全球領先的基因測序公司 Illumina宣布與初創(chuàng)公司 Gretel.ai 合作創(chuàng)建合成基因組數(shù)據(jù)集。

基因組數(shù)據(jù)是世界上最復雜、多維、信息豐富的數(shù)據(jù)類型之一。從字面上看,它包含了生命的秘密——如何構建有機體的說明。長度超過 30 億個堿基對,每個人獨特的 DNA 序列在很大程度上定義了他們的身份,從身高到眼睛顏色,再到患心臟病或藥物濫用的風險。(雖然不是自然語言,但基因組序列是文本數(shù)據(jù);每個人的 DNA 序列都可以通過簡單的 4 個字母“字母表”進行編碼。)

使用領先的人工智能分析人類基因組,使研究人員能夠更深入地了解疾病、健康以及生命本身的運作方式。但由于基因組數(shù)據(jù)的可用性有限,這項研究受到了瓶頸。圍繞人類基因數(shù)據(jù)的嚴格隱私法規(guī)和數(shù)據(jù)共享限制阻礙了研究人員大規(guī)模處理基因組數(shù)據(jù)集的能力。

合成數(shù)據(jù)提供了一種潛在的革命性解決方案:它可以復制真實基因組數(shù)據(jù)集的特征和信號,同時回避這些數(shù)據(jù)隱私問題,因為數(shù)據(jù)是人工生成的,并不對應于現(xiàn)實世界中的任何特定個體。

當涉及到由合成數(shù)據(jù)解鎖的各種基于語言的機會時,這兩個例子只是冰山一角。

近年來出現(xiàn)了一些有前途的初創(chuàng)公司來尋求這些機會。

這一類別中最著名的初創(chuàng)公司是上文提到的 Gretel.ai,迄今為止,該公司已從 Greylock 和其他人那里籌集了超過 6500 萬美元的資金。

從醫(yī)療保健到金融服務,從游戲到電子商務,各行各業(yè)的藍籌客戶對其技術有著強勁的市場需求。

Gretel.ai 首席執(zhí)行官/聯(lián)合創(chuàng)始人 Ali Golshan 說:“看到客戶開始以如此快的速度采用合成數(shù)據(jù)真是令人驚訝?!薄凹词古c 12 或 18 個月前相比,企業(yè)對合成數(shù)據(jù)的認識和需求也在快速增長。我們的客戶繼續(xù)以創(chuàng)新的新方式應用我們的技術給我們帶來驚喜?!?/p>

該領域另一個有趣的早期參與者是 DataCebo。DataCebo 由麻省理工學院的一群教師和他們的學生創(chuàng)立,他們之前創(chuàng)建了 Synthetic Data Vault (SDV),這是最大的開源模型、數(shù)據(jù)、基準和其他合成數(shù)據(jù)工具的生態(tài)系統(tǒng)。DataCebo 和 Synthetic Data Vault 專注于結構化(即表格或關系)文本數(shù)據(jù)集,即在表格或數(shù)據(jù)庫中組織的文本數(shù)據(jù)。

DataCebo 聯(lián)合創(chuàng)始人 Kalyan Veeramachaneni 說:“使用這項技術最重要的動態(tài)是保真度和隱私之間的權衡?!薄癉ataCebo 平臺提供的核心是一個微調選項,使客戶能夠圍繞他們生成的合成數(shù)據(jù)加強隱私保證,但要以保真度為代價,反之亦然。”

Tonic.ai 是另一家熱門的初創(chuàng)公司,為綜合生成的文本數(shù)據(jù)提供工具。Tonic 的主要用例是用于軟件測試和開發(fā)的合成數(shù)據(jù),而不是用于構建機器學習模型。

最后一個值得注意的初創(chuàng)公司是 Syntegra,它專注于專門針對醫(yī)療保健的合成數(shù)據(jù),其用例涵蓋醫(yī)療保健提供者、健康保險公司和制藥公司。考慮到市場規(guī)模和現(xiàn)實世界患者數(shù)據(jù)的棘手隱私挑戰(zhàn),合成數(shù)據(jù)在醫(yī)療保健領域的長期影響可能比任何其他領域都要大。

值得注意的是,在很大程度上,這里討論的公司和示例使用經典的統(tǒng)計方法或傳統(tǒng)的機器學習來生成合成數(shù)據(jù),重點是結構化文本。但在過去的幾年里,語言 AI 的世界已經發(fā)生了革命性的變化,引入了Transformer 架構和新興的大規(guī)?!盎A模型”范式,如 OpenAI 的 GPT-3。

通過利用大型語言模型 (LLM) 來生成具有以前無法想象的真實性、原創(chuàng)性、復雜性和多樣性的非結構化文本(或多模態(tài))數(shù)據(jù)語料庫,這是構建下一代合成數(shù)據(jù)技術的機會。

“大型語言模型的最新進展為我們帶來了機器生成的數(shù)據(jù),這些數(shù)據(jù)通常與人類編寫的文本無法區(qū)分,”DeepMind 專注于生成語言模型的高級研究科學家 Dani Yogatama 說?!斑@種新型合成數(shù)據(jù)已成功應用于構建廣泛的人工智能產品,從簡單的文本分類器到問答系統(tǒng),再到機器翻譯引擎到會話代理。使這項技術民主化將對我們開發(fā)生產 AI 模型的方式產生變革性的影響。”

模擬到現(xiàn)實的差距

退后一步,該領域的基本概念挑戰(zhàn)是合成生成的數(shù)據(jù)必須與真實數(shù)據(jù)足夠相似,才能對數(shù)據(jù)服務的任何目的有用。這是大多數(shù)人在學習合成數(shù)據(jù)時的第一個問題——它真的能準確到足以替代真實數(shù)據(jù)嗎?

合成數(shù)據(jù)集與真實數(shù)據(jù)的相似程度稱為保真度。對我們來說,重要的是要問:合成數(shù)據(jù)需要多高的保真度才能有用?我們到那里了嗎?我們如何衡量和量化保真度?

人工智能的最新進展極大地提高了合成數(shù)據(jù)的保真度。對于計算機視覺和自然語言處理的廣泛應用,今天的合成數(shù)據(jù)技術已經足夠先進,可以部署在生產環(huán)境中。但這里還有更多工作要做。

在計算機視覺中,由于神經輻射場 (NeRF) 等持續(xù)的深度學習創(chuàng)新,俗稱“模擬到真實的差距”正在迅速縮小。Nvidia 的Omniverse等開發(fā)人員平臺的發(fā)布,一個領先的 3D 圖形模擬平臺,通過使開發(fā)人員可以廣泛使用最先進的合成數(shù)據(jù)功能,在這方面發(fā)揮了重要作用。

衡量給定合成數(shù)據(jù)集有效性的最直接方法是將其換成真實數(shù)據(jù),然后查看 AI 模型的性能。例如,計算機視覺研究人員可能會在合成數(shù)據(jù)上訓練一個分類模型,在真實數(shù)據(jù)上訓練第二個分類模型,將兩個模型部署在相同的先前未見過的測試數(shù)據(jù)集上,然后比較兩個模型的性能。

在實踐中,計算機視覺中合成數(shù)據(jù)的使用不需要,通常也不是,這種二進制。研究人員可以通過在他們的訓練數(shù)據(jù)集中結合真實數(shù)據(jù)和合成數(shù)據(jù)來推動顯著的性能改進,而不是只使用真實數(shù)據(jù)或合成數(shù)據(jù),使人工智能能夠從兩者中學習并擴大訓練語料庫的整體規(guī)模。

還值得注意的是,合成數(shù)據(jù)集有時實際上優(yōu)于真實數(shù)據(jù)。這是什么原因呢?

數(shù)據(jù)是從現(xiàn)實世界收集的這一事實并不能保證它是 100% 準確和高質量的。一方面,現(xiàn)實世界的圖像數(shù)據(jù)通常必須由人工手動標記,然后才能用于訓練 AI 模型;這種數(shù)據(jù)標記可能不準確或不完整,從而降低 AI 的性能。另一方面,合成數(shù)據(jù)自動帶有完美的數(shù)據(jù)標簽。此外,合成數(shù)據(jù)集可以比真實世界的數(shù)據(jù)集更大、更多樣化(畢竟這就是重點),這可以轉化為卓越的 AI 性能。

對于文本數(shù)據(jù),行業(yè)從業(yè)者已經開始開發(fā)指標來量化和基準化合成數(shù)據(jù)的保真度。

例如,Gretel.ai 根據(jù)三個不同的統(tǒng)計嚴格指標(場相關穩(wěn)定性、深層結構穩(wěn)定性和場分布穩(wěn)定性)對其合成數(shù)據(jù)集進行評分,并將其匯總以產生 0 到 100 之間的整體合成數(shù)據(jù)質量分數(shù)。簡而言之,這個總體數(shù)字代表“如果使用原始數(shù)據(jù)集,從合成數(shù)據(jù)集得出的科學結論是否相同的置信度得分。”

Gretel 的合成數(shù)據(jù)通常表現(xiàn)得很好:相對于在現(xiàn)實世界數(shù)據(jù)上訓練的模型,基于它訓練的 AI 模型的準確度通常在幾個百分點之內,有時甚至更準確。

合成數(shù)據(jù)初創(chuàng)公司 Syntegra 同樣提出了深思熟慮的分析框架,用于評估醫(yī)療保健環(huán)境中的合成數(shù)據(jù)保真度。

對于文本數(shù)據(jù),保真度和隱私之間存在一個基本的權衡:隨著合成數(shù)據(jù)越來越類似于它所基于的真實世界數(shù)據(jù),可以從合成數(shù)據(jù)中重建原始真實世界數(shù)據(jù)的風險相應增加數(shù)據(jù)。如果原始的真實數(shù)據(jù)是敏感的——比如醫(yī)療記錄或金融交易——這是一個問題。因此,合成文本數(shù)據(jù)的核心挑戰(zhàn)不僅僅是在真空中最大化保真度,而是在保護隱私的同時最大化保真度。

前方的路

下圖說明了很多問題。據(jù) Gartner 稱,到 2030 年,合成數(shù)據(jù)將完全蓋過 AI 模型中的真實數(shù)據(jù)。

資料來源:GARTNER

隨著合成數(shù)據(jù)在未來幾個月和幾年內變得越來越普遍,它將對各個行業(yè)產生顛覆性影響。它將改變數(shù)據(jù)的經濟學。

通過使高質量的訓練數(shù)據(jù)更容易獲得和負擔得起,合成數(shù)據(jù)將削弱專有數(shù)據(jù)資產作為持久競爭優(yōu)勢的優(yōu)勢。

從歷史上看,無論是哪個行業(yè),為了了解人工智能的戰(zhàn)略動態(tài)和機遇,最重要的第一個問題是:誰擁有數(shù)據(jù)?近年來,谷歌、Facebook 和亞馬遜等科技巨頭取得如此市場主導地位的主要原因之一是其無與倫比的客戶數(shù)據(jù)量。

合成數(shù)據(jù)將改變這一點。通過大規(guī)模普及數(shù)據(jù)訪問,它將有助于公平競爭,使較小的新貴能夠與更成熟的參與者競爭,否則他們可能沒有機會挑戰(zhàn)。

回到自動駕駛汽車的例子:谷歌(Waymo)已經投入了數(shù)十億美元,并花費了十多年的時間來收集數(shù)百萬英里的真實駕駛數(shù)據(jù)。任何競爭對手都不太可能在這方面趕上他們。但如果生產級自動駕駛系統(tǒng)幾乎可以完全使用合成訓練數(shù)據(jù)構建,那么谷歌強大的數(shù)據(jù)優(yōu)勢就會消失,而像 Waabi 這樣的年輕初創(chuàng)公司就有合法的競爭機會。

合成數(shù)據(jù)興起的最終結果將是賦能全新一代的人工智能新貴,并通過降低構建人工智能優(yōu)先產品的數(shù)據(jù)壁壘來掀起人工智能創(chuàng)新浪潮。

合成數(shù)據(jù)擴散的一個有趣的相關影響將是減少對數(shù)據(jù)標記的需求和重要性,因為合成生成的數(shù)據(jù)不需要手動標記。

數(shù)據(jù)標記一直是現(xiàn)代機器學習中一個笨拙、不雅的部分。直覺上,真正的智能代理(如人類)不應該需要手動將標簽附加到他們觀察到的每個對象上以識別它們。

但由于在今天的 AI 范式下需要標記數(shù)據(jù),數(shù)據(jù)標記本身已經成為一個龐大的產業(yè);許多公司每年花費數(shù)千萬或數(shù)億美元來標記他們的數(shù)據(jù)。在令人瞠目結舌的收入增長中,領先的數(shù)據(jù)標簽服務提供商 Scale AI 去年的估值為 73 億美元。一個由小型數(shù)據(jù)標簽初創(chuàng)公司組成的完整生態(tài)系統(tǒng)也同樣出現(xiàn)了。

合成數(shù)據(jù)將威脅這些公司的生計。似乎認識到這一點,Scale AI現(xiàn)在的目標是進入合成數(shù)據(jù)游戲本身,今年早些時候推出了一個名為 Scale Synthetic 的合成數(shù)據(jù)平臺。

合成數(shù)據(jù)技術將在未來幾年重塑人工智能世界,擾亂競爭格局并重新定義技術堆棧。它將通過民主化數(shù)據(jù)訪問來加速人工智能在社會中的傳播。它將成為我們人工智能驅動的未來的關鍵催化劑。精通數(shù)據(jù)的個人、團隊和組織應注意。

本文作者:Rob Toews 是 Radical Ventures 的風險投資家,該公司也是 Waabi 的投資者。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2022-06-13
合成數(shù)據(jù)即將改變人工智能
合成數(shù)據(jù)直接解決了多年來阻礙人工智能在醫(yī)療保健中部署的數(shù)據(jù)隱私問題。在真實患者數(shù)據(jù)上訓練 AI 模型會帶來棘手的隱私問題,但當數(shù)據(jù)被合成時,這些問題就會消失。

長按掃碼 閱讀全文