谷歌發(fā)布開源 LMEval:打破AI模型評測壁壘,一鍵評估,降低成本省時(shí)!

谷歌發(fā)布開源 LMEval:打破AI模型評測壁壘,一鍵評估,降低成本省時(shí)!

谷歌近日發(fā)布的開源框架LMEval,無疑為人工智能(AI)模型評測領(lǐng)域開啟了一扇新的大門。這款由科技巨頭傾力打造的開源工具,旨在為大語言模型和多模態(tài)模型提供標(biāo)準(zhǔn)化的評測工具,直擊當(dāng)前評測難題,一鍵評估,降低成本省時(shí)。

首先,我們要理解LMEval的背景和意義。在人工智能領(lǐng)域,評測新型AI模型一直是個(gè)難題。不同供應(yīng)商使用各自的API、數(shù)據(jù)格式和基準(zhǔn)設(shè)置,導(dǎo)致跨模型比較耗時(shí)且復(fù)雜。而LMEval的推出,正是為了解決這一問題,提供一個(gè)統(tǒng)一的基準(zhǔn)設(shè)置,讓研究人員和開發(fā)者能夠展開標(biāo)準(zhǔn)化的評測流程,大幅簡化了評測工作,節(jié)省了時(shí)間和資源。

其次,LMEval的另一個(gè)亮點(diǎn)在于其抹平了不同平臺之間的接口差異。通過LiteLLM框架,谷歌成功地將Google、OpenAI、Anthropic、Ollama和Hugging Face等平臺之間的接口差異降至最小,確保測試能夠跨平臺無縫運(yùn)行。這一創(chuàng)新性的解決方案,無疑將加速AI領(lǐng)域的創(chuàng)新步伐。

再者,LMEval的評估類型支持也相當(dāng)豐富。不僅支持文本評測,還涵蓋圖像和代碼等領(lǐng)域的基準(zhǔn)測試。新輸入格式可輕松擴(kuò)展,這意味著該框架能夠適應(yīng)未來可能出現(xiàn)的新領(lǐng)域。此外,LMEval還能識別模型采用的“規(guī)避策略”,即故意給出模糊回答以避免生成有風(fēng)險(xiǎn)內(nèi)容。這一功能對于評估AI模型的潛在風(fēng)險(xiǎn)和安全性具有重要意義。

另外,谷歌還引入了Giskard安全評分,用以展示模型規(guī)避有害內(nèi)容的表現(xiàn)。百分比越高,代表安全性越強(qiáng)。這一創(chuàng)新性指標(biāo)將有助于提高AI模型在處理有害內(nèi)容時(shí)的表現(xiàn),從而更好地服務(wù)于社會。測試結(jié)果存儲在自加密的SQLite數(shù)據(jù)庫中,確保數(shù)據(jù)本地化且不會被搜索引擎索引,兼顧了隱私與便捷。

此外,LMEval還具備增量評估功能。無需在新增模型或問題時(shí)重新運(yùn)行整個(gè)測試,僅執(zhí)行必要的新增測試即可。這一特性將大大提高評測效率,降低計(jì)算成本和時(shí)間消耗。同時(shí),LMEval還采用多線程引擎并行處理多項(xiàng)計(jì)算,進(jìn)一步提升了評測速度。

為了便于用戶使用LMEval,谷歌還開發(fā)了LMEvalboard可視化工具。通過雷達(dá)圖展示模型在不同類別中的表現(xiàn),用戶可深入查看具體任務(wù),精準(zhǔn)定位模型錯(cuò)誤,并直接比較多個(gè)模型在特定問題上的差異。這一工具的使用門檻低,圖形化展示一目了然,大大提高了評測的便捷性。

綜上所述,谷歌發(fā)布的開源框架LMEval無疑是一款具有開創(chuàng)性的評測工具。其標(biāo)準(zhǔn)化評測流程、抹平平臺差異、豐富評估類型、識別規(guī)避策略、安全評分功能以及可視化工具等特性,將為AI模型評測領(lǐng)域帶來革命性的變革。一鍵評估,降低成本省時(shí),LMEval的推出將為研究人員和開發(fā)者節(jié)省大量時(shí)間和資源,推動人工智能領(lǐng)域的發(fā)展邁上新的臺階。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-05-28
谷歌發(fā)布開源 LMEval:打破AI模型評測壁壘,一鍵評估,降低成本省時(shí)!
谷歌發(fā)布開源 LMEval:打破AI模型評測壁壘,一鍵評估,降低成本省時(shí)! 谷歌近日發(fā)布的開源框架LMEval,無疑為人工智能(AI)模型評測領(lǐng)域...

長按掃碼 閱讀全文