<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
        當前位置: 首頁 - 科技 - 知識百科 - 正文

        數據挖掘之樸素貝葉斯算法

        來源:懂視網 責編:小采 時間:2020-11-09 16:21:04
        文檔

        數據挖掘之樸素貝葉斯算法

        數據挖掘之樸素貝葉斯算法:最近由于需求翻閱了一些數據挖掘相關資料,對數據挖掘過程中的分類技術進行了理解和研究,遂記錄如下。 1、數據挖掘概述 數據挖掘,就是提取或者挖掘數據,主要通過對已獲得的大量數據進行深度整理和分析,其分析結果可以反映過去結果和預測未來趨勢。目前幾
        推薦度:
        導讀數據挖掘之樸素貝葉斯算法:最近由于需求翻閱了一些數據挖掘相關資料,對數據挖掘過程中的分類技術進行了理解和研究,遂記錄如下。 1、數據挖掘概述 數據挖掘,就是提取或者挖掘數據,主要通過對已獲得的大量數據進行深度整理和分析,其分析結果可以反映過去結果和預測未來趨勢。目前幾

        最近由于需求翻閱了一些數據挖掘相關資料,對數據挖掘過程中的分類技術進行了理解和研究,遂記錄如下。 1、數據挖掘概述 數據挖掘,就是提取或者挖掘數據,主要通過對已獲得的大量數據進行深度整理和分析,其分析結果可以反映過去結果和預測未來趨勢。目前幾

        最近由于需求翻閱了一些數據挖掘相關資料,對數據挖掘過程中的分類技術進行了理解和研究,遂記錄如下。

        1、數據挖掘概述

        數據挖掘,就是提取或者挖掘數據,主要通過對已獲得的大量數據進行深度整理和分析,其分析結果可以反映過去結果和預測未來趨勢。目前幾種典型的數據挖掘研究有:關聯規則、分類、聚類、預測、web挖掘等。分類挖掘可以從數據中提取相關特征,然后建立相應模型或者函數,并把數據中的每個對象歸類到特定分類。例如: 可以檢測郵件是否為垃圾郵件,檢測數據是否為攻擊數據,樣本是否為惡意程序等等這些都可以通過分類挖掘實現,而分類挖掘中又分為決策樹方法、統計學方法、貝葉斯網絡、神經網絡等其他分類技術。

        2、樸素貝葉斯算法

        貝葉斯分類是一種基于統計學的分類方法,就是大學學的概率統計神馬的。樸素貝葉斯算法是在貝葉斯算法上基于獨立假設的貝葉斯定理的簡單概率分類器,因此這里談到技術的就是數據挖掘中很小的一部分了。其主要基本思路如下:

        需求分析——>提取特征——->訓練樣本——–>檢測特征——->計算后驗概率——>判定

        首先是需求分析,我們需要清楚自己的目的:即對這些數據分析能夠得出什么結果?我們需要什么結果?一個分類模型;還是其他。例如:我們需要對大量的郵件進行分析處理,最終需要建立一個模型能夠自動判定一封郵件是夠為垃圾郵件或者正常郵件,因此,最終我們只有兩個類別,即垃圾郵件、正常郵件。這就是我們的需要。

        其次是提取特征,需要對待分析的數據進行詳細分析,提取不同點。例如,我們需要研究正常郵件與垃圾郵件有哪些方面的不同,垃圾郵件具有哪些特性,而正常郵件具有額外的哪些特性。一般來講,垃圾郵件內容中往往含有圖片、鏈接、郵件頭、多個收件人、HTML標簽問題等比較特殊的特征,而正常郵件一般沒有這些特征。

        再次是訓練樣本,這個步驟一般是提取大量樣本按照其上一步提取的特征值進行分析并統計,得到一個比較詳細的特征統計表。例如:隨機從郵件服務器中提取1000封郵件,然后對每封郵件內容按照前面提到的特征進行統計分析。

        再次是檢測特征,通過前面的過程我們已經建立了一個樸素貝葉斯模型,我們可以通過編寫代碼實現自動檢測特征。例如,可以通過python或者c++實現文本的特征匹配,這里可以采用其他文本匹配算法。

        再次是計算后驗概率,根據樸素貝葉斯算法,可以計算在已知分類情況下的特征概率,即先驗概率。例如,我們可以計算在假定為正常郵件情況下,文本特征有:圖片、鏈接、多個收件人的情況下概率P(圖片|垃圾郵件)、P(鏈接|垃圾郵件)等,然后我們在計算假定為垃圾郵件情況下,文本特征有圖片、鏈接、多個收件人的情況下概率P(圖片|正常郵件)、P(鏈接|正常郵件)等.

        最后,我們可以通過比較先驗概率的值和概率來判定該樣本屬于哪種類型。例如:分別計算P(垃圾郵件)*P(圖片|垃圾郵件)*P(鏈接|垃圾郵件)*….與P(正常郵件)*P(圖片|正常郵件)*P(鏈接|正常郵件)*….,然后看那個值比較大,從而判定屬于這個類別。

        系統性能指標一般會通過正確率、準確率、召回率這三個指標進行評定。

        3、總結

        整體來說,整個過程還是比較復雜,特別是樣本特征方面,需要考慮比較周全然后其效果才會更加明顯,而訓練樣本的值也會影響最終結果。網上也有一個比較簡單的實例,python實現的Naive Bayes[文獻3],大伙可以參考。附帶幾篇比較好的文章。

        4、參考資料

        (1)范明.范宏建《數據挖掘導論》

        (2)焦李成.《智能數據挖掘與知識發現》

        (3)Naive Bayes的Python實現

        (4)基于樸素貝葉斯分類器的文本分類算法(上)

        (5)貝葉斯推斷及其互聯網應用(一):定理簡介

        (6)貝葉斯推斷及其互聯網應用(二):過濾垃圾郵件

        聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        數據挖掘之樸素貝葉斯算法

        數據挖掘之樸素貝葉斯算法:最近由于需求翻閱了一些數據挖掘相關資料,對數據挖掘過程中的分類技術進行了理解和研究,遂記錄如下。 1、數據挖掘概述 數據挖掘,就是提取或者挖掘數據,主要通過對已獲得的大量數據進行深度整理和分析,其分析結果可以反映過去結果和預測未來趨勢。目前幾
        推薦度:
        標簽: 數據 一些 最近
        • 熱門焦點

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 四虎成人精品国产永久免费无码| 国产一级婬片A视频免费观看| 黄色免费在线观看网址| 国产92成人精品视频免费| 久久精品亚洲福利| 亚洲精品日韩一区二区小说| 少妇性饥渴无码A区免费| 亚洲高清无码综合性爱视频| 久久亚洲精品国产精品婷婷| 国产免费AV片在线观看| 亚洲午夜久久久影院| 一级毛片不卡免费看老司机| 国产在线观看免费完整版中文版| 亚洲男人的天堂久久精品| 四虎免费影院ww4164h| 老湿机一区午夜精品免费福利| 亚洲AV无码码潮喷在线观看| 国产精品内射视频免费| 亚洲精品中文字幕乱码三区| a级毛片在线免费| 亚洲精品韩国美女在线| 99国产精品视频免费观看| 亚洲电影国产一区| 最近中文字幕国语免费完整| 亚洲欧洲国产精品久久| 毛片免费在线观看网址| 亚洲国产成人99精品激情在线| 久久久青草青青国产亚洲免观| 成人性生交大片免费看无遮挡 | 97在线观免费视频观看| 亚洲中文无码av永久| 成人毛片18女人毛片免费96| 久久久精品免费国产四虎| 一级特黄录像免费播放中文版| 国产亚洲精品影视在线| 亚洲精品美女视频| 亚洲AV日韩AV永久无码久久| 亚洲午夜av影院| 9277手机在线视频观看免费| 国产精品玖玖美女张开腿让男人桶爽免费看 | 亚洲第一se情网站|