10月2日消息,美東時(shí)間10月1日OpenAI舉行了年度開發(fā)者大會(huì)DevDay,推出系列新工具,包括四大創(chuàng)新:實(shí)時(shí)API(Realtime API)、視覺微調(diào)(Vision Fine-Tuning)、提示詞緩存(Prompt Caching)、模型蒸餾(Model Distillation),為開發(fā)者帶來在降低模型成本、提高模型視覺理解水平、提升語音AI功能和小模型性能的新選擇。在OpenAI官網(wǎng),上述功能介紹已經(jīng)做了全面更新,一起看看。
實(shí)時(shí) API(Realtime API)
OpenAI DevDay發(fā)布了Realtime API,目前處于公開測(cè)試beta階段。
Realtime API 能夠構(gòu)建低延遲、多模式對(duì)話體驗(yàn)。它目前支持文本和音頻作為輸入和輸出,以及函數(shù)調(diào)用。Realtime API 中的音頻功能由新的 GPT-4o 模型“gpt-4o-realtime-preview”提供支持。
通過此更新,開發(fā)人員可以將任何文本或音頻輸入傳遞到 GPT-4o,并讓模型以他們選擇的文本、音頻或兩者做出響應(yīng)。
本質(zhì)上,Realtime API 簡(jiǎn)化了構(gòu)建語音助手和其他對(duì)話式 AI 工具的過程,無需將多個(gè)模型拼接在一起進(jìn)行轉(zhuǎn)錄、推理和文本到語音的轉(zhuǎn)換。
Realtime API 定價(jià)方面,Realtime API 同時(shí)使用文本tokens和音頻tokens。文本輸入tokens的價(jià)格為5 美元/百萬tokens,輸出tokens的價(jià)格為20 美元/百萬tokens。音頻輸入的價(jià)格為100 美元/百萬tokens,輸出的價(jià)格為200美元/百萬tokens。這相當(dāng)于每分鐘音頻輸入約 0.06 美元,每分鐘音頻輸出約 0.24 美元。
視覺微調(diào)(Vision Fine-Tuning)
OpenAI DevDay公布,OpenAI最新的大語言模型(LLM) GPT-4o 引入了視覺微調(diào)。此功能讓開發(fā)人員可以自定義模型以獲得更強(qiáng)大的圖像理解能力,從而實(shí)現(xiàn)增強(qiáng)的視覺搜索功能、改進(jìn)的自動(dòng)駕駛汽車或智能城市的物體檢測(cè)以及更準(zhǔn)確的醫(yī)學(xué)圖像分析等應(yīng)用。
視覺微調(diào)遵循與文本微調(diào)類似的過程——開發(fā)人員可以準(zhǔn)備他們的圖像數(shù)據(jù)集,然后將該數(shù)據(jù)集上傳到Open AI的平臺(tái)。他們可以用少至 100 張圖像來提高 GPT-4o 在視覺任務(wù)中的性能,并使用更大量的文本和圖像數(shù)據(jù)來提高性能。
OpenAI舉例稱,東南亞食品配送和拼車公司Grab已經(jīng)利用這項(xiàng)技術(shù)改進(jìn)其地圖服務(wù)。僅使用 100 個(gè)示例進(jìn)行視覺微調(diào),教會(huì) GPT-4o 正確定位交通標(biāo)志并計(jì)算車道分隔線以優(yōu)化其地圖數(shù)據(jù),結(jié)果,與基礎(chǔ) GPT-4o 模型相比,Grab 能夠?qū)④嚨烙?jì)數(shù)準(zhǔn)確度提高 20%,限速標(biāo)志定位率提高13%。
價(jià)格方面,截至 2024年10月31日,OpenAI每天免費(fèi)提供100萬tokens,以使用圖像微調(diào) GPT-4o。2024 年 10 月 31 日之后,GPT-4o 微調(diào)訓(xùn)練將花費(fèi)每 100 萬tokens 25 美元,推理將花費(fèi)每 100 萬個(gè)輸入tokens 3.75 美元和每 100 萬個(gè)輸出tokens 15 美元。圖像輸入首先根據(jù)圖像大小進(jìn)行標(biāo)記,然后按與文本輸入相同的每令牌費(fèi)率定價(jià)。
提示詞緩存(Prompt Caching)
提示詞緩存被視為本次DevDay發(fā)布的最重要更新。該功能旨在降低開發(fā)者的成本、減少延遲。
許多開發(fā)人員在構(gòu)建 AI 應(yīng)用程序時(shí),會(huì)在多個(gè) API 調(diào)用中重復(fù)使用相同的上下文,例如在編輯代碼庫或與聊天機(jī)器人進(jìn)行長(zhǎng)時(shí)間的多輪對(duì)話時(shí)。今天,我們推出了提示詞緩存(Prompt Caching),讓開發(fā)人員可以降低成本和延遲。通過重復(fù)使用最近處理的輸入token,開發(fā)人員可以獲得 50% 的折扣和更快的提示詞處理時(shí)間。
目前,提示詞緩存(Prompt Caching)已自動(dòng)應(yīng)用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及這些模型的微調(diào)版本。與未緩存的提示相比,緩存的提示可享受折扣。
模型蒸餾(Model Distillation)
OpenAI 推出了一款新的模型蒸餾產(chǎn)品,為開發(fā)人員提供集成的工作流程,以直接在 OpenAI 平臺(tái)內(nèi)管理整個(gè)蒸餾流程。
這讓開發(fā)人員可以輕松使用前沿模型(如 o1-preview 和 GPT-4o)的輸出來微調(diào)和提高更具成本效益的模型(如 GPT-4o mini)的性能,讓小模型也可擁有尖端模型功能。
這種方法讓小公司也可能利用與尖端模型類似的功能,并且無需承擔(dān)使用這類模型的計(jì)算成本。例如一家從事醫(yī)療技術(shù)的小型初創(chuàng)公司要為農(nóng)村的診所開發(fā)一種AI 驅(qū)動(dòng)的診斷工具。使用模型蒸餾,該公司可以訓(xùn)練一個(gè)緊湊的模型,該模型可以捕捉大模型的大部分診斷能力,同時(shí)只需要在標(biāo)準(zhǔn)的筆記本電腦或平板電腦上運(yùn)行。
- 餓了么灰測(cè)“悅享會(huì)員”加碼用戶體驗(yàn),提供一系列專屬優(yōu)惠和個(gè)性化服務(wù)
- 啟信寶2025奶茶趣味報(bào)告:奶茶企業(yè)5年激增140%,40萬家共筑3500億帝國
- 《黑神話:悟空》PS5國行版將于6月18日正式發(fā)售,建議零售價(jià)268元起
- 報(bào)告:2029年美國AI搜索廣告支出將達(dá)260億美元,占比13.6%
- 重塑內(nèi)生安全體系 實(shí)現(xiàn)AI時(shí)代安全突圍 ——2025北京網(wǎng)絡(luò)安全大會(huì)(BCS)開幕
- 門禁憑證技術(shù)進(jìn)化簡(jiǎn)史:開啟更加安全和便利的未來
- Google I/O 大會(huì):科技盛宴,引領(lǐng)未來創(chuàng)新潮流
- 馬蜂窩端午出行大數(shù)據(jù):短途周邊游是主流,非遺民俗關(guān)注度持續(xù)走高
- 微軟裁員6000人原因揭曉 AI沖擊首當(dāng)其沖
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。