債務(wù)履約能力評(píng)級(jí)報(bào)告數(shù)據(jù)挖掘核心算法之——回歸
上海天元項(xiàng)目數(shù)據(jù)分析師事務(wù)所有限公司
地址:上海市徐匯區(qū)天鑰橋路329號(hào)B棟7樓
王經(jīng)理:021-24193019
回歸,是一個(gè)廣義的概念,包含的基本概念是用一群變量預(yù)測(cè)另一個(gè)變量的方法,白話就是根據(jù)幾件事情的相關(guān)程度,用其中幾件來(lái)預(yù)測(cè)另一件事情發(fā)生的概率,最簡(jiǎn)單的即線性二變量問題(即簡(jiǎn)單線性);復(fù)雜一點(diǎn)就是多變量(即多元線性,這里有一點(diǎn)要注意的,因?yàn)槲易钤缫郧胺高^這個(gè)錯(cuò)誤,就是認(rèn)為預(yù)測(cè)變量越多越好,做模型的時(shí)候總希望選取幾十個(gè)指標(biāo)來(lái)預(yù)測(cè),但是要知道,一方面,每增加一個(gè)變量,就相當(dāng)于在這個(gè)變量上增加了誤差,變相的擴(kuò)大了整體誤差,尤其當(dāng)自變量選擇不當(dāng)?shù)臅r(shí)候,影響更大,另一個(gè)方面,當(dāng)選擇的倆個(gè)自變量本身就是高度相關(guān)而不獨(dú)立的時(shí)候,倆個(gè)指標(biāo)相當(dāng)于對(duì)結(jié)果造成了雙倍的影響 )。
1513數(shù)據(jù)挖掘核心算法
大數(shù)據(jù)時(shí)代的問題當(dāng)然不能讓你用肉眼看出來(lái),不然要海量計(jì)算有啥用,所以除了上面那倆種回歸,我們經(jīng)常用的還有多項(xiàng)式回歸,即模型的關(guān)系是n階多項(xiàng)式;邏輯回歸(類似方法包括決策樹),即結(jié)果是分類變量的預(yù)測(cè);泊松回歸,即結(jié)果變量代表了頻數(shù);非線性回歸、時(shí)間序列回歸、自回歸等等,太多了,這里主要講幾種常用的,好解釋的(所有的模型我們都要注意一個(gè)問題,就是要好解釋,不管是參數(shù)選擇還是變量選擇還是結(jié)果,因?yàn)槟P徒ê昧俗罱K用的是業(yè)務(wù)人員,看結(jié)果的是老板,你要給他們解釋,如果你說(shuō)結(jié)果就是這樣,我也不知道問什么,那升職加薪基本無(wú)望了),例如你發(fā)現(xiàn)日照時(shí)間和某地葡萄銷量有正比關(guān)系,那你可能還要解釋為什么有正比關(guān)系,進(jìn)一步統(tǒng)計(jì)發(fā)現(xiàn)日照時(shí)間和葡萄的含糖量是相關(guān)的,即日照時(shí)間長(zhǎng)葡萄好吃,另外日照時(shí)間和產(chǎn)量有關(guān),日照時(shí)間長(zhǎng),產(chǎn)量大,價(jià)格自然低,結(jié)果是又便宜又好吃的葡萄銷量肯定大。再舉一個(gè)例子,某石油產(chǎn)地的咖啡銷量增大,國(guó)際油價(jià)的就會(huì)下跌,這倆者有關(guān)系,你除了要告訴領(lǐng)導(dǎo)這倆者有關(guān)系,你還要去尋找為什么有關(guān)系,咖啡是提升工人精力的主要飲料,咖啡銷量變大,跟蹤發(fā)現(xiàn)工人的工作強(qiáng)度變大,石油運(yùn)輸出口增多,油價(jià)下跌和咖啡銷量的關(guān)系就出來(lái)了(參考了一個(gè)根據(jù)遙感信息獲取船舶信息來(lái)預(yù)測(cè)糧食價(jià)格的真實(shí)案例,感覺不夠典型,就換一個(gè),實(shí)際油價(jià)是人為操控地)。
回歸利器--最小二乘法,數(shù)學(xué)家高斯用的(另一個(gè)法國(guó)數(shù)學(xué)家說(shuō)自己先創(chuàng)立的,不過沒辦法,誰(shuí)讓高斯出名呢),這個(gè)方法主要就是根據(jù)樣本數(shù)據(jù),找到樣本和預(yù)測(cè)的關(guān)系,使得預(yù)測(cè)和真實(shí)值之間的誤差和最;使用工具就可以了,基本所有的數(shù)據(jù)分析工具都提供了這個(gè)方法的函數(shù),主要給大家講一下之前的一個(gè)誤區(qū),最小二乘法在任何情況下都可以算出來(lái)一個(gè)等式,因?yàn)檫@個(gè) |
 |
|