樸素貝葉斯算法(共3頁).doc
《樸素貝葉斯算法(共3頁).doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《樸素貝葉斯算法(共3頁).doc(3頁珍藏版)》請(qǐng)?jiān)趨R文網(wǎng)上搜索。
1、精選優(yōu)質(zhì)文檔-傾情為你奉上1. 問題描述用高效樸素貝葉斯算法對(duì)Web 新聞文本進(jìn)行分類模型的設(shè)計(jì)2.算法結(jié)構(gòu)我們要判別一個(gè)文本的類別,就要計(jì)算出該文本屬于各類別條件概率,根據(jù)貝葉斯原理可以得出: (1.1)然后比較各類別條件概率大小,選擇類別條件概率最大者為該文本分類,如下 (1.2)而要計(jì)算出,先要先驗(yàn)概率,其計(jì)算方法如下:先將展開其變成由一個(gè)由詞語為單位組成的詞組向量,即,然后得出: (1.3)而則是訓(xùn)練樣本各類別文本數(shù)量與訓(xùn)練樣本總數(shù)之比,計(jì)算公式如下: (1.4)至于它是表示每篇訓(xùn)練文檔出現(xiàn)的概率,因?yàn)槎家粯樱栽趯?shí)際計(jì)算時(shí)可以不用考慮。所以實(shí)際計(jì)算的公式可以估算為 (1.5)由式(
2、1.5)可知,然而這樣多個(gè)小數(shù)連續(xù)相乘最后的結(jié)果會(huì)非常小導(dǎo)致出現(xiàn)下溢問題,令計(jì)算結(jié)果無效。為解決這個(gè)問題,我們?cè)谑褂檬?1.5)計(jì)算時(shí)需要做一些數(shù)學(xué)轉(zhuǎn)換來防止出現(xiàn)這個(gè)數(shù)值下溢問題,而這些數(shù)學(xué)處理就令等式1.5 兩邊取對(duì)數(shù),如下: (1.6)3.特征提取本文將采用 jieba 分詞模塊來對(duì)文本進(jìn)行分詞及提取有代表性的關(guān)鍵詞作為特征,jieba 分詞模塊自帶的詞庫中包含著每個(gè)詞的詞頻(TF)及反文檔頻率(IDF),每個(gè)詞的 TF 值,IDF 值均由原作者通過大量文本訓(xùn)練統(tǒng)計(jì)出來的,所以具有一般性,使用該方法得到的關(guān)鍵詞用人工標(biāo)準(zhǔn)來判斷能反映出文本主題。當(dāng)使用 jieba 分詞模塊的提取關(guān)鍵詞功能時(shí)
3、,它會(huì)對(duì)在對(duì)文本進(jìn)行分詞的同時(shí)會(huì)利用每個(gè)詞的 TF 值及 IDF值計(jì)算出每個(gè)詞的權(quán)重(Weight = TF*IDF),然后根據(jù)權(quán)重大小對(duì)詞進(jìn)行排序,至于返回前多少歌詞則由用戶設(shè)定。另外,在使用提取特征詞功能的時(shí)候還能去除標(biāo)點(diǎn)符號(hào)及對(duì)文本主題無意義的停用詞。根據(jù) jieba 分詞模塊提取關(guān)鍵詞的方法可知,它直接可以對(duì)單個(gè)文本提取關(guān)鍵詞,利用這個(gè)特點(diǎn),在對(duì)待分類文本也作關(guān)鍵詞提取處理,只保留當(dāng)中有代表性的關(guān)鍵詞,這樣既能大大減少生成詞向量的時(shí)間又能提高分類準(zhǔn)確率。4.設(shè)計(jì)算法采用樸素貝葉斯算法作為文本分類算法時(shí),因其每個(gè)特征出現(xiàn)概率相互獨(dú)立且每個(gè)特征重要程度相等的假設(shè),所以選擇一種高效的特征選擇
- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
20 積分
下載 | 加入VIP,下載共享資源 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 樸素 貝葉斯 算法