主要有以下7個(gè)步驟:
1. 收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件集和非垃圾郵件集。
2. 提取郵件主題和郵件體中的獨(dú)立字符串,例如 ABC32,¥234等作為TOKEN串并統(tǒng)計(jì)提取出的TOKEN串出現(xiàn)的次數(shù)即字頻。按照上述的方法分別處理垃圾郵件集和非垃圾郵件集中的所有郵件。
3. 每一個(gè)郵件集對(duì)應(yīng)一個(gè)哈希表,hashtable_good對(duì)應(yīng)非垃圾郵件集而hashtable_bad對(duì)應(yīng)垃圾郵件集。表中存儲(chǔ)TOKEN串到字頻的映射關(guān)系。
4. 計(jì)算每個(gè)哈希表中TOKEN串出現(xiàn)的概率P=(某TOKEN串的字頻)/(對(duì)應(yīng)哈希表的長(zhǎng)度)。
5. 綜合考慮hashtable_good和hashtable_bad,推斷出當(dāng)新來的郵件中出現(xiàn)某個(gè)TOKEN串時(shí),該新郵件為垃圾郵件的概率。數(shù)學(xué)表達(dá)式為:
A 事件 ---- 郵件為垃圾郵件;
t1,t2 …….tn 代表 TOKEN 串
則 P ( A|ti )表示在郵件中出現(xiàn) TOKEN 串 ti 時(shí),該郵件為垃圾郵件的概率。
設(shè)
P1 ( ti ) = ( ti 在 hashtable_good 中的值)
P2 ( ti ) = ( ti 在 hashtable_ bad 中的值)
則 P ( A|ti ) =P2 ( ti ) /[ ( P1 ( ti ) +P2 ( ti ) ] ;
6. 建立新的哈希表hashtable_probability存儲(chǔ)TOKEN串ti到P(A|ti)的映射
7. 至此,垃圾郵件集和非垃圾郵件集的學(xué)習(xí)過程結(jié)束。根據(jù)建立的哈希表 hashtable_probability可以估計(jì)一封新到的郵件為垃圾郵件的可能性。
當(dāng)新到一封郵件時(shí),按照步驟2,生成TOKEN串。查詢hashtable_probability得到該TOKEN 串的鍵值。
假設(shè)由該郵件共得到N個(gè)TOKEN 串,t1,t2…….tn,hashtable_probability中對(duì)應(yīng)的值為 P1 , P2 , ……PN , P(A|t1 ,t2, t3……tn) 表示在郵件中同時(shí)出現(xiàn)多個(gè)TOKEN串t1,t2……tn時(shí),該郵件為垃圾郵件的概率。
由復(fù)合概率公式可得
P(A|t1 ,t2, t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)]
當(dāng) P(A|t1 ,t2, t3……tn) 超過預(yù)定閾值時(shí),就可以判斷郵件為垃圾郵件。
樸素貝葉斯分類器是一種應(yīng)用基于獨(dú)立假設(shè)的貝葉斯定理的簡(jiǎn)單概率分類器,之所以成為樸素,應(yīng)該是Naive的直譯,意思為簡(jiǎn)單,樸素,天真。
1、貝葉斯方法 貝葉斯方法是以貝葉斯原理為基礎(chǔ),使用概率統(tǒng)計(jì)的知識(shí)對(duì)樣本數(shù)據(jù)集進(jìn)行分類。由于其有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),貝葉斯分類算法的誤判率是很低的。
貝葉斯方法的特點(diǎn)是結(jié)合先驗(yàn)概率和后驗(yàn)概率,即避免了只使用先驗(yàn)概率的主觀偏見,也避免了單獨(dú)使用樣本信息的過擬合現(xiàn)象。貝葉斯分類算法在數(shù)據(jù)集較大的情況下表現(xiàn)出較高的準(zhǔn)確率,同時(shí)算法本身也比較簡(jiǎn)單。
2、樸素貝葉斯算法 樸素貝葉斯算法(Naive Bayesian algorithm) 是應(yīng)用最為廣泛的分類算法之一。 樸素貝葉斯方法是在貝葉斯算法的基礎(chǔ)上進(jìn)行了相應(yīng)的簡(jiǎn)化,即假定給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。
也就是說沒有哪個(gè)屬性變量對(duì)于決策結(jié)果來說占有著較大的比重,也沒有哪個(gè)屬性變量對(duì)于決策結(jié)果占有著較小的比重。 雖然這個(gè)簡(jiǎn)化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實(shí)際的應(yīng)用場(chǎng)景中,極大地簡(jiǎn)化了貝葉斯方法的復(fù)雜性。
擴(kuò)展資料 研究意義 人們根據(jù)不確定性信息作出推理和決策需要對(duì)各種結(jié)論的概率作出估計(jì),這類推理稱為概率推理。概率推理既是概率學(xué)和邏輯學(xué)的研究對(duì)象,也是心理學(xué)的研究對(duì)象,但研究的角度是不同的。
概率學(xué)和邏輯學(xué)研究的是客觀概率推算的公式或規(guī)則。 而心理學(xué)研究人們主觀概率估計(jì)的認(rèn)知加工過程規(guī)律。
貝葉斯推理的問題是條件概率推理問題,這一領(lǐng)域的探討對(duì)揭示人們對(duì)概率信息的認(rèn)知加工過程與規(guī)律、指導(dǎo)人們進(jìn)行有效的學(xué)習(xí)和判斷決策都具有十分重要的理論意義和實(shí)踐意義。
為了測(cè)試評(píng)估貝葉斯分類器的性能,用不同數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)是必不可少的. 現(xiàn)有的貝葉斯網(wǎng)絡(luò)實(shí)驗(yàn)軟件包都是針對(duì)特定目的設(shè)計(jì)的,不能滿足不同研究的需要. 介紹了用Matlab在BNT軟件包基礎(chǔ)上建構(gòu)的貝葉斯分類器實(shí)驗(yàn)平臺(tái)MBNC,闡述了MBNC的系統(tǒng)結(jié)構(gòu)和主要功能,以及在MBNC上建立的樸素貝葉斯分類器NBC,基于互信息和條件互信息測(cè)度的樹擴(kuò)展的貝葉斯分類器TANC,基于K2算法和GS算法的貝葉斯網(wǎng)絡(luò)分類器BNC. 用來自UCI的標(biāo)準(zhǔn)數(shù)據(jù)集對(duì)MBNC進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明基于MBNC所建構(gòu)的貝葉斯分類器的性能優(yōu)于國外同類工作的結(jié)果,編程量大大小于使用同類的實(shí)驗(yàn)軟件包,所建立的MBNC實(shí)驗(yàn)平臺(tái)工作正確、有效、穩(wěn)定. 在MBNC上已經(jīng)進(jìn)行貝葉斯分類器的優(yōu)化和改進(jìn)實(shí)驗(yàn),以及處理缺失數(shù)據(jù)等研究工作。
為了測(cè)試評(píng)估貝葉斯分類器的性能,用不同數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)是必不可少的. 現(xiàn)有的貝葉斯網(wǎng)絡(luò)實(shí)驗(yàn)軟件包都是針對(duì)特定目的設(shè)計(jì)的,不能滿足不同研究的需要. 介紹了用Matlab在BNT軟件包基礎(chǔ)上建構(gòu)的貝葉斯分類器實(shí)驗(yàn)平臺(tái)MBNC,闡述了MBNC的系統(tǒng)結(jié)構(gòu)和主要功能,以及在MBNC上建立的樸素貝葉斯分類器NBC,基于互信息和條件互信息測(cè)度的樹擴(kuò)展的貝葉斯分類器TANC,基于K2算法和GS算法的貝葉斯網(wǎng)絡(luò)分類器BNC. 用來自UCI的標(biāo)準(zhǔn)數(shù)據(jù)集對(duì)MBNC進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明基于MBNC所建構(gòu)的貝葉斯分類器的性能優(yōu)于國外同類工作的結(jié)果,編程量大大小于使用同類的實(shí)驗(yàn)軟件包,所建立的MBNC實(shí)驗(yàn)平臺(tái)工作正確、有效、穩(wěn)定. 在MBNC上已經(jīng)進(jìn)行貝葉斯分類器的優(yōu)化和改進(jìn)實(shí)驗(yàn),以及處理缺失數(shù)據(jù)等研究工作。
為了測(cè)試評(píng)估貝葉斯分類器的性能,用不同數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)是必不可少的. 現(xiàn)有的貝葉斯網(wǎng)絡(luò)實(shí)驗(yàn)軟件包都是針對(duì)特定目的設(shè)計(jì)的,不能滿足不同研究的需要. 介紹了用Matlab在BNT軟件包基礎(chǔ)上建構(gòu)的貝葉斯分類器實(shí)驗(yàn)平臺(tái)MBNC,闡述了MBNC的系統(tǒng)結(jié)構(gòu)和主要功能,以及在MBNC上建立的樸素貝葉斯分類器NBC,基于互信息和條件互信息測(cè)度的樹擴(kuò)展的貝葉斯分類器TANC,基于K2算法和GS算法的貝葉斯網(wǎng)絡(luò)分類器BNC. 用來自UCI的標(biāo)準(zhǔn)數(shù)據(jù)集對(duì)MBNC進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明基于MBNC所建構(gòu)的貝葉斯分類器的性能優(yōu)于國外同類工作的結(jié)果,編程量大大小于使用同類的實(shí)驗(yàn)軟件包,所建立的MBNC實(shí)驗(yàn)平臺(tái)工作正確、有效、穩(wěn)定. 在MBNC上已經(jīng)進(jìn)行貝葉斯分類器的優(yōu)化和改進(jìn)實(shí)驗(yàn),以及處理缺失數(shù)據(jù)等研究工作.。
和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier,或 NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時(shí),NBC模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)镹BC模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。
解決這個(gè)問題的方法一般是建立一個(gè)屬性模型,對(duì)于不相互獨(dú)立的屬性,把他們單獨(dú)處理。例如中文文本分類識(shí)別的時(shí)候,我們可以建立一個(gè)字典來處理一些詞組。如果發(fā)現(xiàn)特定的問題中存在特殊的模式屬性,那么就單獨(dú)處理。
這樣做也符合貝葉斯概率原理,因?yàn)槲覀儼岩粋€(gè)詞組看作一個(gè)單獨(dú)的模式,例如英文文本處理一些長(zhǎng)度不等的單詞,也都作為單獨(dú)獨(dú)立的模式進(jìn)行處理,這是自然語言與其他分類識(shí)別問題的不同點(diǎn)。
實(shí)際計(jì)算先驗(yàn)概率時(shí)候,因?yàn)檫@些模式都是作為概率被程序計(jì)算,而不是自然語言被人來理解,所以結(jié)果是一樣的。
在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),NBC模型的分類效率比不上決策樹模型。但這點(diǎn)有待驗(yàn)證,因?yàn)榫唧w的問題不同,算法得出的結(jié)果不同,同一個(gè)算法對(duì)于同一個(gè)問題,只要模式發(fā)生變化,也存在不同的識(shí)別性能。這點(diǎn)在很多國外論文中已經(jīng)得到公認(rèn),在機(jī)器學(xué)習(xí)一書中也提到過算法對(duì)于屬性的識(shí)別情況決定于很多因素,例如訓(xùn)練樣本和測(cè)試樣本的比例影響算法的性能。
決策樹對(duì)于文本分類識(shí)別,要看具體情況。在屬性相關(guān)性較小時(shí),NBC模型的性能稍微良好。屬性相關(guān)性較小的時(shí)候,其他的算法性能也很好,這是由于信息熵理論決定的。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:3.547秒