風(fēng)控建模的學(xué)習(xí)材料往往從模型開始講,最后才講到模型評價(jià)的標(biāo)準(zhǔn)上來。因?yàn)槟P捅旧肀容^難以理解,所以導(dǎo)致評價(jià)標(biāo)準(zhǔn)的理解上,往往跟模型的復(fù)雜性攪在一起,感覺理解起來更加困難。
其實(shí),評價(jià)風(fēng)控的標(biāo)準(zhǔn)跟模型是沒關(guān)系的,標(biāo)準(zhǔn)是一只尺子,用來衡量我們做的事情跟我們目標(biāo)的距離,而模型就是我們做的事情。在這個(gè)尺子的度量下,哪個(gè)模型好,哪個(gè)模型壞,就可以量化的比較出來了。
所以,我們換個(gè)思路,先把我們的"尺子"講清楚,然后再去講這些模型如何去達(dá)到尺子的要求。今天這一講呢,我們講--混淆矩陣。
做風(fēng)控審核的朋友要問了,"我就是審核一個(gè)客戶的好與壞,咋還來一個(gè)矩陣呢,我學(xué)生的時(shí)候就怕看見矩陣,頭疼"。其實(shí),不要怕,這個(gè)矩陣是非常簡單的,它只是借用了個(gè)矩陣的表達(dá)形式罷了。
首先,我們樹立一個(gè)概念,我們每天的工作,是去審核一個(gè)個(gè)單個(gè)的借款人,而今天我們討論的標(biāo)準(zhǔn),不是針對一個(gè)借款人的,而是對我們一段時(shí)間內(nèi)所有審核工作的一個(gè)綜合考量。比如,過去3個(gè)月審核了1萬個(gè)借款人,那總體來講,審核效果如何呢,我們需要對這個(gè)考量制定量化的考核指標(biāo)。
那么,問題就來了,什么樣的指標(biāo)能夠告訴大家審核的結(jié)果的好壞呢?
壞帳率?有朋友說,如果發(fā)生壞帳越少,肯定是風(fēng)控做的越好。問題是,如果我們把所有用戶都拒掉,壞帳率肯定是0,因?yàn)榫蜎]有放貸嘛,哪來的壞帳。那銷售部門肯定要鬧翻天了,不交易哪來的提成?。克?,并不是說壞帳率越低越好,還要考慮放貸的通過率。
通過率?通過的越多,銷售部門的提成越高,大家都樂翻天了。老板這個(gè)時(shí)候要出場了,你們什么樣的客戶都做,壞賬怎么辦?都讓老子抗么?風(fēng)控人員不想混了么?
那最厲害的風(fēng)控效果就是,呆帳率為零,而通過率是最高的。通俗來講,就是應(yīng)該放貸的都放了,而不應(yīng)該放的都沒放。而可悲的現(xiàn)實(shí)是,這樣的判斷力太難實(shí)現(xiàn)了,除了神以外,我們凡人是幾乎無法達(dá)到這樣的智慧的。我們審批通過的,肯定有漏網(wǎng)之魚并最終導(dǎo)致壞賬;而我們拒掉的,肯定有誤殺的,該賺的錢沒賺到。
那我們所尋求的各種手段,包括人工來審核,打分卡,邏輯回歸以及其他的大數(shù)據(jù)算法,要達(dá)到的目標(biāo),無非是"漏網(wǎng)之魚越少越好,同時(shí)誤殺的也越少越好"。很長時(shí)間內(nèi),我們只能逼近兩者的最優(yōu)效果,但卻無法達(dá)到。
于是,我們定義了幾個(gè)指標(biāo),來量化出上面所說的情況。
本身是好客戶,判斷也為好客戶的人群數(shù)量,英文標(biāo)記為TP:True Positive
本身是壞客戶,判斷也為壞客戶的人群數(shù)量,英文標(biāo)記為TN:True Negative
本身是好客戶,卻判斷為壞客戶的人群數(shù)量,即誤殺掉的,英文標(biāo)記為FN:False Negative
本來是壞客戶,卻判斷成好客戶的人群數(shù)量,即漏網(wǎng)之魚,英文標(biāo)記為FP: False Positive
舉個(gè)例子,有1000個(gè)貸款申請人,我們的風(fēng)控人員人工將其中400個(gè)人判斷成好人,600個(gè)人判斷成壞人,即通過率是40%。結(jié)果發(fā)現(xiàn),這400個(gè)人中,有300個(gè)還款了,100個(gè)成壞帳了,即TP=300,F(xiàn)P=100;而其實(shí)那600個(gè)人中,有200個(gè)是能還款的(假定我們是知道的),而400個(gè)人是真的還不了錢的,那么TN=400,F(xiàn)N=200。
為了更好地將TP,F(xiàn)P,TN,F(xiàn)N組織起來,我們把它們放成一個(gè)矩陣的形式(插入矩陣表達(dá)),叫做混淆矩陣,看,多么簡單。我們肯定希望,TP和TN越大越好,F(xiàn)P和FN越小越好。
我們現(xiàn)在把判斷的方法從風(fēng)控人員人工判斷,轉(zhuǎn)成用邏輯回歸來判斷,這個(gè)衡量的方法是不變的。也就是說"有1000個(gè)貸款申請人,我們的邏輯回歸風(fēng)控模型將其中400個(gè)人判斷成好人,600個(gè)人判斷成壞人,即通過率是40%。結(jié)果發(fā)現(xiàn),這400個(gè)人中,有300個(gè)還款了,100個(gè)成呆帳了,即TP=300,F(xiàn)P=100;而其實(shí)那600個(gè)人中,有200個(gè)是能還款的(假定我們是知道的),而400個(gè)人是真的還不了錢的,那么TN=400,F(xiàn)N=200。",
看,評判的標(biāo)準(zhǔn)來講,與模型是無關(guān)的。
上例中,真實(shí)的好人數(shù)=TP+FN=300+200=500(即正確判斷出的好人+誤殺的),真實(shí)的壞人數(shù)=TN+FP=400+100=500(即正確判斷出的壞人+漏網(wǎng)的壞人)。如果用邏輯回歸,發(fā)現(xiàn),TP=350(350個(gè)好人正確判斷出來了),F(xiàn)P=50(50個(gè)漏網(wǎng)之魚),那么FP=50(誤殺的人150個(gè)),TN=450(450個(gè)壞人判斷出來了)。那么該模型將比我們?nèi)斯づ袛喑鰜淼男Ч谩?/p>
好學(xué)的朋友一定又有疑問了,那600個(gè)人已經(jīng)被拒掉了,我怎么知道其中有多少個(gè)好人被誤殺呢?非常好的問題,我們不知道。
所以我需要在一個(gè)已知結(jié)果的人群當(dāng)中來檢驗(yàn)我們的模型,我們清楚每一個(gè)人是好人還是壞人,然后把這個(gè)結(jié)果先隱藏起來,我們讓模型去做決策,看決策出來的結(jié)果(有的時(shí)候也被稱為預(yù)測結(jié)果)與真實(shí)結(jié)果的對比,這些度量就出來了。
那這個(gè)已知結(jié)果的人群是從哪里來的?是從我們真實(shí)的業(yè)務(wù)中來的,也就是經(jīng)常說的,要有積累的業(yè)務(wù)數(shù)據(jù)(也叫樣本數(shù)據(jù),每一筆借款記錄當(dāng)成一個(gè)樣本),到了一定的量,來做模型出來。這個(gè)時(shí)候,我們往往把這些樣本數(shù)據(jù)分成兩部分,一部分樣本用來訓(xùn)練(推算)模型出來,然后用另外一部分來測試,得出最終的結(jié)果出來。
如果思考的更深一點(diǎn),我們發(fā)現(xiàn),這些樣本,其實(shí)我們是丟掉了那些被拒掉的案例,只留下了放貸的(因?yàn)檫@樣的才知道最終結(jié)果)。也就是說,其實(shí)我們是利用那些真實(shí)放款人的數(shù)據(jù)來訓(xùn)練模型的,那些我們通過人的經(jīng)驗(yàn)被拒掉的,是難以體現(xiàn)在我們的模型中的(因?yàn)槟P褪腔诔晒Ψ趴畹臉颖緛碛?xùn)練的)。而我們可能拿這個(gè)模型來決定一個(gè)人的貸款申請(人的經(jīng)驗(yàn)來篩選這個(gè)環(huán)節(jié)沒有了),這里面的偏差的問題如何解決?這個(gè)問題就是我們在馬姆杜·雷法特所著《信用風(fēng)險(xiǎn)評分卡研究》一書中看到的拒絕演繹問題。這個(gè)問題比較復(fù)雜和充滿爭議,后面我們專門的章節(jié)介紹。
以上的介紹都很簡單,下面我們來點(diǎn)更深度的。
有一個(gè)模型A,它預(yù)測出的一個(gè)貸款人是好是壞,其實(shí)不是一個(gè)絕對值,而是一個(gè)概率。即,模型預(yù)測張三80%的可能性是好人。對于好人這個(gè)群體,我們可以數(shù)一數(shù),不同概率區(qū)間段上(比如,(80%~85%]就是一個(gè)區(qū)間段,表示概率大于80%且小于等于85%),好人的個(gè)數(shù)。我們就會得到一個(gè)<區(qū)間段,個(gè)數(shù)>的對應(yīng)關(guān)系。比如<(80%~85%],100>表示,有100個(gè)好人的概率落在了(80%~85%]區(qū)間上。我們把不同區(qū)間段的對應(yīng)關(guān)系表達(dá)在一張圖上,這個(gè)關(guān)系一般符合圖1的樣子(學(xué)術(shù)上叫做分布)。這些柱狀圖可以簡化為一條曲線來表達(dá)這個(gè)趨勢。
我們需要設(shè)定一個(gè)閾值,比如說大于70%好人概率的都認(rèn)為是好人,那么張三(80%>70%)就被預(yù)測為好人;如果說這個(gè)標(biāo)準(zhǔn)提高到了90%,那張三就被預(yù)測為壞人了。
比如,在圖2中,我們以虛線表示的刻度作為評判好人的標(biāo)準(zhǔn),則灰色部分(虛線左邊)為FN(本身是好人,誤殺為壞人),斜線部分(虛線右邊)為TP(本身是好人,判斷也是好人)。
同樣的,我們也可以針對壞人群體做出類似的曲線出來,如圖3所示,不同的是,斜線部分(虛線左邊)為TN(本身是壞人,判斷為壞人),灰色部分(虛線右邊)為FP(本身是壞人,誤判為好人)。
我們就很容易理解,這個(gè)標(biāo)準(zhǔn)的選擇決定了我們對放款控制的力度。如果虛線越往右,風(fēng)險(xiǎn)控制越嚴(yán)苛,F(xiàn)P(漏網(wǎng)之魚)就越小,但TP(正確放貸的量)也越小,被誤殺就越多。反過來,如果虛線越往左,風(fēng)險(xiǎn)控制越松,TP(正確放貸的量)越多,但FP(漏網(wǎng)之魚)也越多,正確找出來的壞人就越少。這是符合我們正常的理解的 。
- 人民日報(bào)對話任正非:國家越開放,會促使我們更加進(jìn)步
- 五大領(lǐng)域,六大亮點(diǎn)!全國首個(gè)新域新質(zhì)創(chuàng)新大賽落地青島
- 2025新域新質(zhì)創(chuàng)新大賽新聞通氣會?在青島召開
- 華為ICT大賽2024-2025全球總決賽收官:AI賦能教育轉(zhuǎn)型,助力ICT人才培養(yǎng)
- 從無線再進(jìn)化到數(shù)據(jù)完整性:解碼Qorvo如何定義下一代智能設(shè)備
- 發(fā)力5G-A揚(yáng)帆,山東領(lǐng)航萬兆時(shí)代:助推新型工業(yè)化崛起
- 萬智互聯(lián) 加速邁向智能世界——華為亮相第八屆數(shù)字中國建設(shè)峰會
- 聯(lián)想車計(jì)算上海車展亮劍:以智算AI,驅(qū)動(dòng)汽車“智慧”加速
- 馬斯克旗下腦機(jī)接口公司計(jì)劃融資5億美元 商業(yè)落地面臨三大挑戰(zhàn)
- 2025中國移動(dòng)云智算大會丨第二屆“五岳杯”量子計(jì)算挑戰(zhàn)賽圓滿落幕
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。