<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問(wèn)答1問(wèn)答10問(wèn)答100問(wèn)答1000問(wèn)答2000關(guān)鍵字專題1關(guān)鍵字專題50關(guān)鍵字專題500關(guān)鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專題關(guān)鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問(wèn)答文章1 問(wèn)答文章501 問(wèn)答文章1001 問(wèn)答文章1501 問(wèn)答文章2001 問(wèn)答文章2501 問(wèn)答文章3001 問(wèn)答文章3501 問(wèn)答文章4001 問(wèn)答文章4501 問(wèn)答文章5001 問(wèn)答文章5501 問(wèn)答文章6001 問(wèn)答文章6501 問(wèn)答文章7001 問(wèn)答文章7501 問(wèn)答文章8001 問(wèn)答文章8501 問(wèn)答文章9001 問(wèn)答文章9501
        當(dāng)前位置: 首頁(yè) - 科技 - 知識(shí)百科 - 正文

        思路總結(jié)-----對(duì)微博情感分析的的挖掘

        來(lái)源:懂視網(wǎng) 責(zé)編:小采 時(shí)間:2020-11-09 12:14:17
        文檔

        思路總結(jié)-----對(duì)微博情感分析的的挖掘

        思路總結(jié)-----對(duì)微博情感分析的的挖掘:一朋友由于工作需要,準(zhǔn)備對(duì)新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊,便于他后期的實(shí)驗(yàn)實(shí)踐。實(shí)際上,文本挖掘及分析在未來(lái)都會(huì)產(chǎn)生較大的效果。舉一 一朋友由于工作需要,準(zhǔn)備對(duì)新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊,便于他后期
        推薦度:
        導(dǎo)讀思路總結(jié)-----對(duì)微博情感分析的的挖掘:一朋友由于工作需要,準(zhǔn)備對(duì)新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊,便于他后期的實(shí)驗(yàn)實(shí)踐。實(shí)際上,文本挖掘及分析在未來(lái)都會(huì)產(chǎn)生較大的效果。舉一 一朋友由于工作需要,準(zhǔn)備對(duì)新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊,便于他后期

        一朋友由于工作需要,準(zhǔn)備對(duì)新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊,便于他后期的實(shí)驗(yàn)實(shí)踐。實(shí)際上,文本挖掘及分析在未來(lái)都會(huì)產(chǎn)生較大的效果。舉一

        一朋友由于工作需要,準(zhǔn)備對(duì)新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊,便于他后期的實(shí)驗(yàn)實(shí)踐。實(shí)際上,文本挖掘及分析在未來(lái)都會(huì)產(chǎn)生較大的效果。舉一個(gè)簡(jiǎn)單的例子,現(xiàn)在地鐵里的每個(gè)人每天都會(huì)去刷新自己的人人好友圈,微信好友消息。而這些消息大部分是基于文本的。如何對(duì)這些原始的消息進(jìn)行挖掘。進(jìn)而為相應(yīng)的精準(zhǔn)營(yíng)銷做準(zhǔn)備。在以后的營(yíng)銷中將會(huì)產(chǎn)生重大效果。

        原始數(shù)據(jù)

        這一部分的內(nèi)容,我們可以通過(guò)爬蟲技術(shù)來(lái)抓取。通過(guò)聚類算法,找到相同話題的所有微博。然后拿來(lái)做為原始數(shù)據(jù)。還有就是用戶好友圈內(nèi)的評(píng)價(jià)消息,還有用戶產(chǎn)生的連接消息,等等。這些都可以作為原始數(shù)據(jù)來(lái)歸入我們的數(shù)據(jù)庫(kù)。

        確訂目標(biāo)(商業(yè)理解)

        這一步也同時(shí)與業(yè)務(wù)理解要很好的關(guān)聯(lián)起來(lái),首先,我們是要用這些原始數(shù)據(jù)來(lái)作什么?比如,我們用情感分析,所有不同用戶對(duì)同一事件的理解。我們要將他們的微博信息里的關(guān)鍵詞找出來(lái)。然而進(jìn)行相應(yīng)的查找算法,進(jìn)而確定所有用戶對(duì)這一事件的評(píng)價(jià)。然后,我們要通過(guò)用戶的評(píng)價(jià),找到有二次商業(yè)利用值的客戶。然后確訂為目標(biāo)客戶。

        數(shù)據(jù)理解

        所抓取到的微博內(nèi)容是什么,里邊帶幾個(gè)鏈接?是用什么符號(hào)與之相連?文字,圖片的分類,另外還有評(píng)論信息是否也有參考價(jià)值。里邊的特殊符號(hào)代表什么?等等。這些信息,那些是對(duì)我們的來(lái)說(shuō)是有用的,如何去用?比如說(shuō)要從文本中挖掘出關(guān)建字,進(jìn)行相關(guān)的營(yíng)銷活動(dòng)。從而確定博主的情感動(dòng)向。進(jìn)而可以做些什么?理解我們的數(shù)據(jù),才能更好的抓取到我們所要使用的數(shù)據(jù)。

        模型建立

        有人說(shuō),搞數(shù)據(jù)挖掘的人就是要來(lái)做這一部分的內(nèi)容。你要建立一個(gè)好的模型,那以后的數(shù)據(jù)通過(guò)你的這個(gè)模型,那么你所需要的內(nèi)容自動(dòng)地就會(huì)呈現(xiàn)出來(lái)。而這一部分也是整個(gè)數(shù)據(jù)挖掘里最難的部分。

        比如說(shuō)我們的微博數(shù)據(jù),我們可以通過(guò)決策樹算法建立模型。最后輸出那些關(guān)健字的客戶就是我們的目標(biāo)客戶。又或者,我們可以通過(guò)神經(jīng)網(wǎng)絡(luò)的算法建立模型,找到相關(guān)的所的決策項(xiàng)。實(shí)際上,數(shù)據(jù)挖掘所用到的方法很多,也很復(fù)雜,我也是到現(xiàn)在還是沒(méi)有弄清楚一些算法的核心思想。但這樣并不影響我們來(lái)使用相關(guān)的算法來(lái)進(jìn)行挖掘。再者說(shuō),現(xiàn)在的挖掘?qū)ο螅嬲螾B內(nèi)容的資料也不是很多的。很多企業(yè)還停留在小型機(jī)的階段。所以,有的時(shí)候,我會(huì)開玩笑的說(shuō):數(shù)據(jù)量太小的話,EXECL會(huì)更好一些,然后是ACCESS數(shù)據(jù)庫(kù)。再然后就是ORCALE數(shù)據(jù)庫(kù).....

        模型建立是一個(gè)比較幸苦的工作,可是如果建立完成后,一般3-5年不會(huì)發(fā)生變化。比如我們現(xiàn)在的信用卡的信用評(píng)分系統(tǒng)。

        模型評(píng)估

        這一部分內(nèi)容,是進(jìn)行相關(guān)優(yōu)化。也就是說(shuō)模型建立好了,開始要跑業(yè)務(wù)了。要測(cè)試一下看它到底能跑到什么樣的程度。有的時(shí)候,,你挖掘了半年,也找到的目標(biāo)客戶,結(jié)果被其他人先用其他方法吸引走了,怎么辦?所以才要有模型評(píng)估這件工作。

        先將大數(shù)據(jù)里的一部分?jǐn)?shù)據(jù),一般是40%拿來(lái)先做訓(xùn)練,你也可以拿少量來(lái)試一試。然后看完成這些數(shù)據(jù)需要多長(zhǎng)時(shí)間。換了其他的算法后,是否可以提高挖掘時(shí)間。一般這一步的數(shù)據(jù)分配要遵守一個(gè)4:3:3的原則,即40%拿來(lái)做訓(xùn)練,30%來(lái)做測(cè)試,另外的30%拿來(lái)做驗(yàn)證。綜合來(lái)說(shuō),才能夠評(píng)價(jià)這個(gè)模型的好壞,以及這個(gè)模型是否能產(chǎn)生它的相應(yīng)價(jià)值。

        發(fā)布模型

        這是最后一步,讓所有微博數(shù)據(jù)進(jìn)行相應(yīng)的算法優(yōu)化。進(jìn)而達(dá)到最好的挖掘效果。


        在以上的這幾個(gè)步驟中,模型評(píng)估與商業(yè)理解其實(shí)也是相輔相成的,因?yàn)檫@兩個(gè)主要是與數(shù)據(jù)最為密切。而數(shù)據(jù)理解與商業(yè)理解又是相互制約的,很多時(shí)候,我們是有了大數(shù)據(jù),但是我們找不到我們的所要挖掘的目標(biāo)在那里,這時(shí)就需要不斷的修訂我們的商業(yè)理解與數(shù)據(jù)理解,然而,模型的相關(guān)內(nèi)容,在整個(gè)閉環(huán)的過(guò)程中并不顯的那么重要。有的時(shí)候,客戶的一個(gè)很簡(jiǎn)單的需求,我們并不一定要用復(fù)雜的技術(shù)來(lái)實(shí)現(xiàn),簡(jiǎn)單也許就意味著勝利。


        再來(lái)說(shuō)說(shuō)在文本挖掘中的思路,少量的文本信息。我們可以放在在WORD里用復(fù)制粘貼來(lái)完成,多的話可以用EXCEL,再多的話可以用U1,要是還是多就用SAS與R,再多就用其他的了,具體什么軟件,我也沒(méi)用過(guò)。


        好了,就先總結(jié)這么多吧。下周有空再寫吧!

        本文出自 “數(shù)據(jù)挖掘與可視化” 博客,轉(zhuǎn)載請(qǐng)與作者聯(lián)系!

        聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        思路總結(jié)-----對(duì)微博情感分析的的挖掘

        思路總結(jié)-----對(duì)微博情感分析的的挖掘:一朋友由于工作需要,準(zhǔn)備對(duì)新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊,便于他后期的實(shí)驗(yàn)實(shí)踐。實(shí)際上,文本挖掘及分析在未來(lái)都會(huì)產(chǎn)生較大的效果。舉一 一朋友由于工作需要,準(zhǔn)備對(duì)新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊,便于他后期
        推薦度:
        標(biāo)簽: 微博 朋友 情感
        • 熱門焦點(diǎn)

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 亚洲国产综合精品中文第一区| 久久精品亚洲男人的天堂| 亚洲国产精品自在在线观看 | 国产zzjjzzjj视频全免费| 国产成人精品日本亚洲网址| 91嫩草免费国产永久入口| 亚洲综合色丁香麻豆| 久久免费看黄a级毛片| 在线视频网址免费播放| 亚洲精品国自产拍在线观看| 精品亚洲成A人在线观看青青| 国产一级大片免费看| 美女免费视频一区二区三区| 四虎亚洲国产成人久久精品| 男女啪啪免费体验区| 中文字幕亚洲第一| 国内精品一级毛片免费看| 亚洲日本精品一区二区| 99久久久国产精品免费牛牛四川| 亚洲好看的理论片电影| 91九色精品国产免费| 亚洲 欧洲 视频 伦小说| 国产成人精品高清免费| 极品美女一级毛片免费| 久久精品国产精品亚洲精品| 5g影院5g天天爽永久免费影院| 亚洲一区二区三区无码国产 | 噼里啪啦免费观看高清动漫4| 亚洲午夜在线播放| www亚洲精品少妇裸乳一区二区| 亚洲免费在线观看| 亚洲高清视频在线播放| 日本免费一区尤物| 中文在线免费视频| 亚洲综合久久久久久中文字幕| 日本一道一区二区免费看| 中文在线观看国语高清免费| 亚洲精品国产啊女成拍色拍 | 亚洲人成无码网站| 我们的2018在线观看免费高清| 在线观看亚洲精品专区|