數(shù)據(jù)挖掘(8):樸素貝葉斯分類算法原理與實(shí)踐(共11頁).docx
《數(shù)據(jù)挖掘(8):樸素貝葉斯分類算法原理與實(shí)踐(共11頁).docx》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘(8):樸素貝葉斯分類算法原理與實(shí)踐(共11頁).docx(11頁珍藏版)》請?jiān)趨R文網(wǎng)上搜索。
1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)挖掘(8):樸素貝葉斯分類算法原理與實(shí)踐隔了很久沒有寫數(shù)據(jù)挖掘系列的文章了,今天介紹一下樸素貝葉斯分類算法,講一下基本原理,再以文本分類實(shí)踐。 一個(gè)簡單的例子樸素貝葉斯算法是一個(gè)典型的統(tǒng)計(jì)學(xué)習(xí)方法,主要理論基礎(chǔ)就是一個(gè)貝葉斯公式,貝葉斯公式的基本定義如下:這個(gè)公式雖然看上去簡單,但它卻能總結(jié)歷史,預(yù)知未來。公式的右邊是總結(jié)歷史,公式的左邊是預(yù)知未來,如果把Y看出類別,X看出特征,P(Yk|X)就是在已知特征X的情況下求Yk類別的概率,而對P(Yk|X)的計(jì)算又全部轉(zhuǎn)化到類別Yk的特征分布上來。舉個(gè)例子,大學(xué)的時(shí)候,某男生經(jīng)常去圖書室晚自習(xí),發(fā)現(xiàn)他喜歡的那
2、個(gè)女生也常去那個(gè)自習(xí)室,心中竊喜,于是每天買點(diǎn)好吃點(diǎn)在那個(gè)自習(xí)室蹲點(diǎn)等她來,可是人家女生不一定每天都來,眼看天氣漸漸炎熱,圖書館又不開空調(diào),如果那個(gè)女生沒有去自修室,該男生也就不去,每次男生鼓足勇氣說:“嘿,你明天還來不?”,“啊,不知道,看情況”。然后該男生每天就把她去自習(xí)室與否以及一些其他情況做一下記錄,用Y表示該女生是否去自習(xí)室,即Y=去,不去,X是跟去自修室有關(guān)聯(lián)的一系列條件,比如當(dāng)天上了哪門主課,蹲點(diǎn)統(tǒng)計(jì)了一段時(shí)間后,該男生打算今天不再蹲點(diǎn),而是先預(yù)測一下她會不會去,現(xiàn)在已經(jīng)知道了今天上了常微分方法這么主課,于是計(jì)算P(Y=去|常微分方程)與P(Y=不去|常微分方程),看哪個(gè)概率大,
3、如果P(Y=去|常微分方程) >P(Y=不去|常微分方程),那這個(gè)男生不管多熱都屁顛屁顛去自習(xí)室了,否則不就去自習(xí)室受罪了。P(Y=去|常微分方程)的計(jì)算可以轉(zhuǎn)為計(jì)算以前她去的情況下,那天主課是常微分的概率P(常微分方程|Y=去),注意公式右邊的分母對每個(gè)類別(去/不去)都是一樣的,所以計(jì)算的時(shí)候忽略掉分母,這樣雖然得到的概率值已經(jīng)不再是01之間,但是其大小還是能選擇類別。后來他發(fā)現(xiàn)還有一些其他條件可以挖,比如當(dāng)天星期幾、當(dāng)天的天氣,以及上一次與她在自修室的氣氛,統(tǒng)計(jì)了一段時(shí)間后,該男子一計(jì)算,發(fā)現(xiàn)不好算了,因?yàn)榭偨Y(jié)歷史的公式:這里n=3,x(1)表示主課,x(2)表示天氣,x(3)表示
4、星期幾,x(4)表示氣氛,Y仍然是去,不去,現(xiàn)在主課有8門,天氣有晴、雨、陰三種、氣氛有A+,A,B+,B,C五種,那么總共需要估計(jì)的參數(shù)有8*3*7*5*2=1680個(gè),每天只能收集到一條數(shù)據(jù),那么等湊齊1680條數(shù)據(jù)大學(xué)都畢業(yè)了,男生打呼不妙,于是做了一個(gè)獨(dú)立性假設(shè),假設(shè)這些影響她去自習(xí)室的原因是獨(dú)立互不相關(guān)的,于是有了這個(gè)獨(dú)立假設(shè)后,需要估計(jì)的參數(shù)就變?yōu)椋?8+3+7+5)*2 = 46個(gè)了,而且每天收集的一條數(shù)據(jù),可以提供4個(gè)參數(shù),這樣該男生就預(yù)測越來越準(zhǔn)了。 樸素貝葉斯分類器講了上面的小故事,我們來樸素貝葉斯分類器的表示形式:當(dāng)特征為為x時(shí),計(jì)算所有類別的條件概率,選取條件
5、概率最大的類別作為待分類的類別。由于上公式的分母對每個(gè)類別都是一樣的,因此計(jì)算時(shí)可以不考慮分母,即樸素貝葉斯的樸素體現(xiàn)在其對各個(gè)條件的獨(dú)立性假設(shè)上,加上獨(dú)立假設(shè)后,大大減少了參數(shù)假設(shè)空間。在文本分類上的應(yīng)用文本分類的應(yīng)用很多,比如垃圾郵件和垃圾短信的過濾就是一個(gè)2分類問題,新聞分類、文本情感分析等都可以看成是文本分類問題,分類問題由兩步組成:訓(xùn)練和預(yù)測,要建立一個(gè)分類模型,至少需要有一個(gè)訓(xùn)練數(shù)據(jù)集。貝葉斯模型可以很自然地應(yīng)用到文本分類上:現(xiàn)在有一篇文檔d(Document),判斷它屬于哪個(gè)類別ck,只需要計(jì)算文檔d屬于哪一個(gè)類別的概率最大:在分類問題中,我們并不是把所有的特征都用上,對一篇文檔
6、d,我們只用其中的部分特征詞項(xiàng)<t1,t2,tnd>(nd表示d中的總詞條數(shù)目),因?yàn)楹芏嘣~項(xiàng)對分類是沒有價(jià)值的,比如一些停用詞“的,是,在”在每個(gè)類別中都會出現(xiàn),這個(gè)詞項(xiàng)還會模糊分類的決策面,關(guān)于特征詞的選取,我的這篇文章有介紹。用特征詞項(xiàng)表示文檔后,計(jì)算文檔d的類別轉(zhuǎn)化為:注意P(Ck|d)只是正比于后面那部分公式,完整的計(jì)算還有一個(gè)分母,但我們前面討論了,對每個(gè)類別而已分母都是一樣的,于是在我們只需要計(jì)算分子就能夠進(jìn)行分類了。實(shí)際的計(jì)算過程中,多個(gè)概率值P(tj|ck)的連乘很容易下溢出為0,因此轉(zhuǎn)化為對數(shù)計(jì)算,連乘就變成了累加:我們只需要從訓(xùn)練數(shù)據(jù)集中,計(jì)算每一個(gè)類別的出現(xiàn)
7、概率P(ck)和每一個(gè)類別中各個(gè)特征詞項(xiàng)的概率P(tj|ck),而這些概率值的計(jì)算都采用最大似然估計(jì),說到底就是統(tǒng)計(jì)每個(gè)詞在各個(gè)類別中出現(xiàn)的次數(shù)和各個(gè)類別的文檔的數(shù)目:其中,Nck表示訓(xùn)練集中ck類文檔的數(shù)目,N訓(xùn)練集中文檔總數(shù);Tjk表示詞項(xiàng)tj在類別ck中出現(xiàn)的次數(shù),V是所有類別的詞項(xiàng)集合。這里對詞的位置作了獨(dú)立性假設(shè),即兩個(gè)詞只要它們出現(xiàn)的次數(shù)一樣,那不管它們在文檔的出現(xiàn)位置,它們大概率值P(tj|ck)都是一樣,這個(gè)位置獨(dú)立性假設(shè)與現(xiàn)實(shí)很不相符,比如“放馬屁”跟“馬放屁”表述的是不同的內(nèi)容,但實(shí)踐發(fā)現(xiàn),位置獨(dú)立性假設(shè)得到的模型準(zhǔn)確率并不低,因?yàn)榇蠖鄶?shù)文本分類都是靠詞的差異來區(qū)分,而不是
- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
20 積分
下載 | 加入VIP,下載共享資源 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù) 挖掘 樸素 貝葉斯 分類 算法 原理 實(shí)踐 11
鏈接地址:http://zhizhaikeji.com/p-5077436.html