国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

瀏覽:60日期:2022-06-17 16:30:31
目錄一、使用PyChram的正則二、制作一個隨機(jī)User-Agent模塊三、最終實(shí)踐3.1 爬取快代理上的ip3.2 驗證爬取到的ip是否可用3.3 實(shí)戰(zhàn):利用爬取到的ip訪問CSDN博客網(wǎng)址1000次四、總結(jié)一、使用PyChram的正則

首先,小編講的不是爬取ip,而是講了解PyCharm的正則,這里講的正則不是Python的re模塊哈!而是PyCharm的正則功能,我們在PyChram的界面上按上Ctrl+R,可以發(fā)現(xiàn),這里出現(xiàn)兩行輸入框

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

現(xiàn)在如果小編想把如下數(shù)據(jù)轉(zhuǎn)換成一個字典存儲

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

讀者也許會一個一去改,但是小編只需在上述的那兩個輸入框內(nèi),輸入一串字符串即可。

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

只需在第一個輸入框中,輸入(.*) : (.*)在第二個輸入框中,輸入'$1':'$2',,看看效果如何

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

之后再給兩端分別一個花括號和取一個字典名稱即可。

二、制作一個隨機(jī)User-Agent模塊

反爬措施中,有這樣一條,就是服務(wù)器會檢查請求的user-agent參數(shù)值,如果檢查的結(jié)果為python,那么服務(wù)器就知道這是爬蟲,為了避免被服務(wù)器發(fā)現(xiàn)這是爬蟲,通常user-agent參數(shù)值會設(shè)置瀏覽器的值,但是爬取一個網(wǎng)址時,每次都需要查看網(wǎng)址network下面的內(nèi)容,顯得比較繁瑣,為什么不自定義一個隨機(jī)獲取user-agent的值模塊呢?這樣既可以減少查看network帶來的繁瑣,同時還可以避免服務(wù)器發(fā)現(xiàn)這是同一個user-agent發(fā)起多次請求。說了這么多,那么具體怎樣實(shí)現(xiàn)呢?

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

只需調(diào)用隨機(jī)模塊random的方法choice()即可,這個方法里面的參數(shù)類型時列表類型,具體參考代碼如下:

import randomclass useragent(object): def getUserAgent(self):useragents=[ ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1’, ’Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0’, ’Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)’, ’Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)’,]return random.choice(useragents)

這樣我們就可以隨機(jī)得到一個user-agent的值了。

三、最終實(shí)踐3.1 爬取快代理上的ip

接下來,就是最終實(shí)踐了,制作屬于自己的IP代理模塊。

那么,從哪里獲取IP呢?小編用的是快代理這個網(wǎng)址,網(wǎng)址鏈接為:https://www.kuaidaili.com/free/inha/1/。

怎樣提取IP呢?小編用的是xpath語法

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

參考代碼如下:

import requestsfrom crawlers.userAgent import useragent # 導(dǎo)入自己自定義的類,主要作用為隨機(jī)取user-agent的值from lxml import etreeurl=’https://www.kuaidaili.com/free/inha/1/’headers={’user-agent’:useragent().getUserAgent()}rsp=requests.get(url=url,headers=headers)HTML=etree.HTML(rsp.text)infos=HTML.xpath('//table[@class=’table table-bordered table-striped’]/tbody/tr')for info in infos: print(info.xpath(’./td[1]/text()’)) # ip print(info.xpath(’./td[2]/text()’)) # ip對應(yīng)的端口 列表類型

怎樣爬取多頁呢?分析快代理那個網(wǎng)址,可以發(fā)現(xiàn)https://www.kuaidaili.com/free/inha/{頁數(shù)}/ ,花括號里面就是頁數(shù),這個網(wǎng)址總頁數(shù)為4038,這里小編只爬取5頁,并且開始頁數(shù)取(1,3000)之間的隨機(jī)數(shù),但是如果for循環(huán)這個過程,運(yùn)行結(jié)果如下:

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

原來是請求過快的原因,只需在爬取1頁之后,休眠幾秒鐘即可解決。

3.2 驗證爬取到的ip是否可用

這里直接用百度這個網(wǎng)址作為測試網(wǎng)址,主要代碼為:

url=’https://www.baidu.com’headers={’user-agent’:useragent().getUserAgent()}proxies={} # ip ,這里只是講一下關(guān)鍵代碼,沒有給出具體IPrsp=requests.get(url=url,headers=headers,proxies=proxies,time=0.2) # timeout為超時時間

只需判斷rsp的狀態(tài)碼為200,如果是,把它添加到一個指定的列表中。

具體參考代碼小編已經(jīng)上傳到Gitee上,鏈接為:ip代理模塊

當(dāng)然讀者可用把這個文件保存到pythonLib文件夾下面,這樣就可用隨時隨地導(dǎo)入了。

3.3 實(shí)戰(zhàn):利用爬取到的ip訪問CSDN博客網(wǎng)址1000次

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

上述出現(xiàn)那個錯誤,小編上網(wǎng)搜索了一下原因,如下:

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

我想應(yīng)該是第1種原因,ip被封,我這里沒有設(shè)置超時時間,應(yīng)該不會出現(xiàn)程序請求速度過快。

四、總結(jié)

上述那個ip代理模塊還有很多的不足點(diǎn),比如用它去訪問一些網(wǎng)址時,不管運(yùn)行多少次,輸出的結(jié)果狀態(tài)碼不會時200,這也正常,畢竟免費(fèi)的ip并不是每個都能用的。如果要說改進(jìn)的話,就是多爬取幾個不同ip代理網(wǎng)址,去重,這樣的結(jié)果肯定會比上述的那個ip代理模塊要好

到此這篇關(guān)于python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊的文章就介紹到這了,更多相關(guān)Python IP代理模塊內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 成人a毛片 | 亚洲深夜福利视频 | 美女一丝不佳一级毛片香蕉 | 依依成人综合网 | 在线亚洲成人 | 99精品国产综合久久久久 | 男人把女人桶到喷白浆的视频 | 欧美性视频一区二区三区 | 成人亲子乱子伦视频 | 美女视频一区二区三区 | 麻豆国产96在线 | 日韩 | 狠狠88综合久久久久综合网 | 性成人动作片在线看 | 欧美成人h精品网站 | 亚洲精品视频久久 | 一区二区三区免费看 | 欧美成人性色生活片免费在线观看 | 狠狠色狠狠色狠狠五月ady | 国产精品日产三级在线观看 | 国产亚洲精品免费 | 美女被免费网站视频软件 | 99久久精品久久久久久婷婷 | 美国成人免费视频 | 日本久久久久久久久久 | 欧美成人毛片免费网站 | 一区精品麻豆经典 | 韩国一级理黄论片 | 91精品国产免费久久 | 亚洲精品片| 久久e| 中国老妇色xxxxx | 国产自在自线午夜精品视频 | 日韩精品另类天天更新影院 | 久久精品久久久 | 色综久久| 美女被免费网站视频软件 | 久久国内精品自在自线400部o | 亚洲成a人伦理 | 国产乱码一区二区三区四川人 | 中文在线亚洲 | 大片毛片女女女女女女女 |