<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
        當前位置: 首頁 - 科技 - 知識百科 - 正文

        Python使用lxml模塊和Requests模塊抓取HTML頁面的教程

        來源:懂視網 責編:小采 時間:2020-11-27 14:36:50
        文檔

        Python使用lxml模塊和Requests模塊抓取HTML頁面的教程

        Python使用lxml模塊和Requests模塊抓取HTML頁面的教程:Web抓取 Web站點使用HTML描述,這意味著每個web頁面是一個結構化的文檔。有時從中 獲取數據同時保持它的結構是有用的。web站點不總是以容易處理的格式, 如 csv 或者 json 提供它們的數據。 這正是web抓取出場的時機。Web抓取是使用計算機程序將web頁面數
        推薦度:
        導讀Python使用lxml模塊和Requests模塊抓取HTML頁面的教程:Web抓取 Web站點使用HTML描述,這意味著每個web頁面是一個結構化的文檔。有時從中 獲取數據同時保持它的結構是有用的。web站點不總是以容易處理的格式, 如 csv 或者 json 提供它們的數據。 這正是web抓取出場的時機。Web抓取是使用計算機程序將web頁面數

        Web抓取
        Web站點使用HTML描述,這意味著每個web頁面是一個結構化的文檔。有時從中 獲取數據同時保持它的結構是有用的。web站點不總是以容易處理的格式, 如 csv 或者 json 提供它們的數據。

        這正是web抓取出場的時機。Web抓取是使用計算機程序將web頁面數據進行收集 并整理成所需格式,同時保存其結構的實踐。

        lxml和Requests
        lxml(http://lxml.de/)是一個優美的擴展庫,用來快速解析XML以及HTML文檔 即使所處理的標簽非?;靵y。我們也將使用 Requests (http://docs.python-requests.org/en/latest/#)模塊取代內建的urllib2模塊,因為其速度更快而且可讀性更好。你可以通過使用 pip install lxml 與 pip install requests 命令來安裝這兩個模塊。

        讓我們以下面的導入開始:

        from lxml import html
        import requests
        

        下一步我們將使用 requests.get 來從web頁面中取得我們的數據, 通過使用 html 模塊解析它,并將結果保存到 tree 中。

        page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')
        tree = html.fromstring(page.text)
        

        tree 現在包含了整個HTML文件到一個優雅的樹結構中,我們可以使用兩種 方法訪問:XPath以及CSS選擇器。在這個例子中,我們將選擇前者。

        XPath是一種在結構化文檔(如HTML或XML)中定位信息的方式。一個關于XPath的 不錯的介紹參見 W3Schools 。

        有很多工具可以獲取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右鍵元素,選擇 ‘Inspect element',高亮這段代碼, 再次右擊,并選擇 ‘Copy XPath'。

        在進行一次快速分析后,我們看到在頁面中的數據保存在兩個元素中,一個是title是 ‘buyer-name' 的div,另一個class是 ‘item-price' 的span:

        Carson Busses
        $29.95
        

        知道這個后,我們可以創建正確的XPath查詢并且使用lxml的 xpath 函數, 像下面這樣:

        #這將創建buyers的列表:
        buyers = tree.xpath('//div[@title="buyer-name"]/text()')
        #這將創建prices的列表:
        prices = tree.xpath('//span[@class="item-price"]/text()')
        

        讓我們看看我們得到了什么:

        print 'Buyers: ', buyers
        print 'Prices: ', prices
        Buyers: ['Carson Busses', 'Earl E. Byrd', 'Patty Cakes',
        'Derri Anne Connecticut', 'Moe Dess', 'Leda Doggslife', 'Dan Druff',
        'Al Fresco', 'Ido Hoe', 'Howie Kisses', 'Len Lease', 'Phil Meup',
        'Ira Pent', 'Ben D. Rules', 'Ave Sectomy', 'Gary Shattire',
        'Bobbi Soks', 'Sheila Takya', 'Rose Tattoo', 'Moe Tell']
        
        Prices: ['$29.95', '$8.37', '$15.26', '$19.25', '$19.25',
        '$13.99', '$31.57', '$8.49', '$14.47', '$15.86', '$11.11',
        '$15.98', '$16.27', '$7.50', '$50.85', '$14.26', '$5.68',
        '$15.00', '$114.07', '$10.09']
        
        

        恭喜!我們已經成功地通過lxml與Request,從一個web頁面中抓取了所有我們想要的 數據。我們將它們以列表的形式存在內存中?,F在我們可以對它做各種很酷的事情了: 我們可以使用Python分析它,或者我們可以將之保存為一個文件并向世界分享。

        我們可以考慮一些更酷的想法:修改這個腳本來遍歷該例數據集中剩余的頁面,或者 使用多線程重寫這個應用從而提升它的速度。

        聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        Python使用lxml模塊和Requests模塊抓取HTML頁面的教程

        Python使用lxml模塊和Requests模塊抓取HTML頁面的教程:Web抓取 Web站點使用HTML描述,這意味著每個web頁面是一個結構化的文檔。有時從中 獲取數據同時保持它的結構是有用的。web站點不總是以容易處理的格式, 如 csv 或者 json 提供它們的數據。 這正是web抓取出場的時機。Web抓取是使用計算機程序將web頁面數
        推薦度:
        標簽: 使用 模塊 html
        • 熱門焦點

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 91久久亚洲国产成人精品性色| 四虎影院永久免费观看| 亚洲高清国产拍精品26U| 一进一出60分钟免费视频| 亚洲av无码不卡私人影院| 老司机午夜性生免费福利| 亚洲国产a级视频| 一区二区免费在线观看| 亚洲啪啪综合AV一区| 国产一区二区免费视频| 亚洲综合无码一区二区| 在线永久免费的视频草莓| 亚洲欧洲免费无码| 国产一区二区免费在线| 免费的黄色的网站| 亚洲AV无码久久久久网站蜜桃| av无码久久久久不卡免费网站| 亚洲国产精品免费观看| 国产真人无遮挡作爱免费视频| 黄色网址大全免费| 亚洲色成人WWW永久网站| 99精品视频在线观看免费播放| 亚洲字幕在线观看| 国产成人免费a在线视频app| 有码人妻在线免费看片| 亚洲综合一区二区精品导航| 夜夜嘿视频免费看| GOGOGO高清免费看韩国| 亚洲男人天堂影院| 性做久久久久免费看| a级片免费观看视频| 亚洲一区在线观看视频| 亚洲第一成人影院| 日本免费一区二区三区 | 免费中文字幕一级毛片| xxxxx做受大片视频免费| 久久久亚洲AV波多野结衣| 国产免费69成人精品视频| 成人黄网站片免费视频| 久久亚洲精品成人无码| 亚洲一区二区三区偷拍女厕|