標(biāo)題:OpenAI的強(qiáng)化微調(diào)技術(shù)引領(lǐng)定制化o4-mini模型新潮流
隨著人工智能技術(shù)的不斷發(fā)展,定制化基礎(chǔ)模型已成為業(yè)界關(guān)注的焦點。近日,科技媒體marktechpost報道,OpenAI在其o4-mini推理模型上推出了強(qiáng)化微調(diào)技術(shù)(Reinforcement Fine-Tuning,簡稱RFT),為定制基礎(chǔ)模型以適應(yīng)特定任務(wù)帶來了突破性工具。這一技術(shù)的推出,無疑將打破常規(guī),引領(lǐng)定制化o4-mini模型的新潮流。
首先,讓我們來了解一下強(qiáng)化微調(diào)技術(shù)(RFT)的基本原理。RFT將強(qiáng)化學(xué)習(xí)原理融入語言模型的微調(diào)過程。開發(fā)者不再僅依賴標(biāo)注數(shù)據(jù),而是通過設(shè)計任務(wù)特定的評分函數(shù)(grader)來評估模型輸出。這些評分函數(shù)根據(jù)自定義標(biāo)準(zhǔn)(如準(zhǔn)確性、格式或語氣)為模型表現(xiàn)打分,模型則通過優(yōu)化獎勵信號逐步學(xué)習(xí),生成符合期望的行為。這種方法尤其適合難以定義標(biāo)準(zhǔn)答案的復(fù)雜任務(wù),例如醫(yī)療解釋的措辭優(yōu)化。
o4-mini是OpenAI于2025年4月發(fā)布的一款緊湊型推理模型,支持文本和圖像輸入,擅長結(jié)構(gòu)化推理和鏈?zhǔn)剿季S提示(chain-of-thought prompts)。通過在o4-mini上應(yīng)用RFT,OpenAI為開發(fā)者提供了一個輕量但強(qiáng)大的基礎(chǔ)模型,適合高風(fēng)險、領(lǐng)域特定的推理任務(wù)。目前,多家早期采用者已展示RFT在o4-mini上的潛力,并凸顯了RFT在法律、醫(yī)療、代碼生成等領(lǐng)域的定制化優(yōu)勢。
接下來,我們來看幾個實際案例。Accordance AI開發(fā)的稅務(wù)分析模型準(zhǔn)確率提升39%;Ambience Healthcare優(yōu)化了醫(yī)療編碼,ICD-10分配性能提升12個百分點;法律AI初創(chuàng)公司Harvey提升了法律文檔引文提取的F1分?jǐn)?shù)20%;Runloop改進(jìn)了Stripe API代碼生成,性能提升12%。這些案例充分展示了RFT在特定領(lǐng)域中的出色表現(xiàn)和巨大潛力。
使用RFT進(jìn)行定制化模型訓(xùn)練,需要完成四步:設(shè)計評分函數(shù)、準(zhǔn)備高質(zhì)量數(shù)據(jù)集、通過OpenAI API啟動訓(xùn)練任務(wù),以及持續(xù)評估和優(yōu)化。這一過程需要專業(yè)的技能和豐富的經(jīng)驗,但一旦成功,將為開發(fā)者帶來前所未有的便利和效率。
值得一提的是,OpenAI還向認(rèn)證組織開放了RFT,訓(xùn)練費(fèi)用為每小時100美元,若使用其他模型作為評分工具,則按標(biāo)準(zhǔn)推理費(fèi)率計費(fèi)。為了鼓勵更多人參與,OpenAI還推出激勵措施,同意共享數(shù)據(jù)集用于研究的組織可享受50%的訓(xùn)練費(fèi)用折扣。這種開放和共享的態(tài)度,無疑將推動RFT技術(shù)的發(fā)展和普及。
總的來說,OpenAI的強(qiáng)化微調(diào)技術(shù)(RFT)為定制化基礎(chǔ)模型帶來了革命性的變化。通過在o4-mini推理模型上應(yīng)用這一技術(shù),OpenAI為開發(fā)者提供了一個輕量但強(qiáng)大的基礎(chǔ)模型,適合高風(fēng)險、領(lǐng)域特定的推理任務(wù)。這一技術(shù)的推出,不僅打破了常規(guī),也引領(lǐng)了定制化o4-mini模型的新潮流。未來,我們期待看到更多基于RFT的定制化基礎(chǔ)模型在各個領(lǐng)域中的應(yīng)用和突破。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )