国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python爬蟲爬取網(wǎng)頁(yè)數(shù)據(jù)并解析數(shù)據(jù)

瀏覽:2日期:2022-07-10 17:19:58

1.網(wǎng)絡(luò)爬蟲的基本概念

網(wǎng)絡(luò)爬蟲(又稱網(wǎng)絡(luò)蜘蛛,機(jī)器人),就是模擬客戶端發(fā)送網(wǎng)絡(luò)請(qǐng)求,接收請(qǐng)求響應(yīng),一種按照一定的規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序。只要瀏覽器能夠做的事情,原則上,爬蟲都能夠做到。

2.網(wǎng)絡(luò)爬蟲的功能

python爬蟲爬取網(wǎng)頁(yè)數(shù)據(jù)并解析數(shù)據(jù)

網(wǎng)絡(luò)爬蟲可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取網(wǎng)站上面的圖片,比如有些朋友將某些網(wǎng)站上的圖片全部爬取下來,集中進(jìn)行瀏覽,同時(shí),網(wǎng)絡(luò)爬蟲也可以用于金融投資領(lǐng)域,比如可以自動(dòng)爬取一些金融信息,并進(jìn)行投資分析等。

有時(shí),我們比較喜歡的新聞網(wǎng)站可能有幾個(gè),每次都要分別打開這些新聞網(wǎng)站進(jìn)行瀏覽,比較麻煩。此時(shí)可以利用網(wǎng)絡(luò)爬蟲,將這多個(gè)新聞網(wǎng)站中的新聞信息爬取下來,集中進(jìn)行閱讀。

有時(shí),我們?cè)跒g覽網(wǎng)頁(yè)上的信息的時(shí)候,會(huì)發(fā)現(xiàn)有很多廣告。此時(shí)同樣可以利用爬蟲將對(duì)應(yīng)網(wǎng)頁(yè)上的信息爬取過來,這樣就可以自動(dòng)的過濾掉這些廣告,方便對(duì)信息的閱讀與使用。

有時(shí),我們需要進(jìn)行營(yíng)銷,那么如何找到目標(biāo)客戶以及目標(biāo)客戶的聯(lián)系方式是一個(gè)關(guān)鍵問題。我們可以手動(dòng)地在互聯(lián)網(wǎng)中尋找,但是這樣的效率會(huì)很低。此時(shí),我們利用爬蟲,可以設(shè)置對(duì)應(yīng)的規(guī)則,自動(dòng)地從互聯(lián)網(wǎng)中采集目標(biāo)用戶的聯(lián)系方式等數(shù)據(jù),供我們進(jìn)行營(yíng)銷使用。

有時(shí),我們想對(duì)某個(gè)網(wǎng)站的用戶信息進(jìn)行分析,比如分析該網(wǎng)站的用戶活躍度、發(fā)言數(shù)、熱門文章等信息,如果我們不是網(wǎng)站管理員,手工統(tǒng)計(jì)將是一個(gè)非常龐大的工程。此時(shí),可以利用爬蟲輕松將這些數(shù)據(jù)采集到,以便進(jìn)行進(jìn)一步分析,而這一切爬取的操作,都是自動(dòng)進(jìn)行的,我們只需要編寫好對(duì)應(yīng)的爬蟲,并設(shè)計(jì)好對(duì)應(yīng)的規(guī)則即可。

除此之外,爬蟲還可以實(shí)現(xiàn)很多強(qiáng)大的功能。總之,爬蟲的出現(xiàn),可以在一定程度上代替手工訪問網(wǎng)頁(yè),從而,原先我們需要人工去訪問互聯(lián)網(wǎng)信息的操作,現(xiàn)在都可以用爬蟲自動(dòng)化實(shí)現(xiàn),這樣可以更高效率地利用好互聯(lián)網(wǎng)中的有效信息。

3.安裝第三方庫(kù)

在進(jìn)行爬取數(shù)據(jù)和解析數(shù)據(jù)前,需要在Python運(yùn)行環(huán)境中下載安裝第三方庫(kù)requests。

在Windows系統(tǒng)中,打開cmd(命令提示符)界面,在該界面輸入pip install requests,按回車鍵進(jìn)行安裝。(注意連接網(wǎng)絡(luò))如下圖

python爬蟲爬取網(wǎng)頁(yè)數(shù)據(jù)并解析數(shù)據(jù)

安裝完成,如圖

python爬蟲爬取網(wǎng)頁(yè)數(shù)據(jù)并解析數(shù)據(jù)

4.爬取淘寶首頁(yè)

# 請(qǐng)求庫(kù)import requests# 用于解決爬取的數(shù)據(jù)格式化import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=’utf-8’)# 爬取的網(wǎng)頁(yè)鏈接r= requests.get('https://www.taobao.com/')# 類型# print(type(r))print(r.status_code)# 中文顯示# r.encoding=’utf-8’r.encoding=Noneprint(r.encoding)print(r.text)result = r.text

運(yùn)行結(jié)果,如圖

python爬蟲爬取網(wǎng)頁(yè)數(shù)據(jù)并解析數(shù)據(jù)

5.爬取和解析淘寶網(wǎng)首頁(yè)

# 請(qǐng)求庫(kù)import requests# 解析庫(kù)from bs4 import BeautifulSoup# 用于解決爬取的數(shù)據(jù)格式化import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=’utf-8’)# 爬取的網(wǎng)頁(yè)鏈接r= requests.get('https://www.taobao.com/')# 類型# print(type(r))print(r.status_code)# 中文顯示# r.encoding=’utf-8’r.encoding=Noneprint(r.encoding)print(r.text)result = r.text# 再次封裝,獲取具體標(biāo)簽內(nèi)的內(nèi)容bs = BeautifulSoup(result,’html.parser’)# 具體標(biāo)簽print('解析后的數(shù)據(jù)')print(bs.span)a={}# 獲取已爬取內(nèi)容中的script標(biāo)簽內(nèi)容data=bs.find_all(’script’)# 獲取已爬取內(nèi)容中的td標(biāo)簽內(nèi)容data1=bs.find_all(’td’)# 循環(huán)打印輸出for i in data: a=i.text print(i.text,end=’’) for j in data1: print(j.text)

運(yùn)行結(jié)果,如圖

python爬蟲爬取網(wǎng)頁(yè)數(shù)據(jù)并解析數(shù)據(jù)

6.小結(jié)

在對(duì)網(wǎng)頁(yè)代碼進(jìn)行爬取操作時(shí),不能頻繁操作,更不要將其設(shè)置成死循環(huán)模式(每一次爬取則為對(duì)網(wǎng)頁(yè)的訪問,頻繁操作會(huì)導(dǎo)致系統(tǒng)崩潰,會(huì)追究其法律責(zé)任)。

所以在獲取網(wǎng)頁(yè)數(shù)據(jù)后,將其保存為本地文本模式,再對(duì)其進(jìn)行解析(不再需要訪問網(wǎng)頁(yè))。

以上就是python爬蟲爬取網(wǎng)頁(yè)數(shù)據(jù)并解析數(shù)據(jù)的詳細(xì)內(nèi)容,更多關(guān)于python爬取網(wǎng)頁(yè)數(shù)據(jù)并解析的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 中文字幕一区二区小泽玛利亚 | 免费大片黄手机在线观看 | 三级网址免费 | 久久骚| 国产成人刺激视频在线观看 | 特黄特黄aaaa级毛片免费看 | 亚洲一区在线免费观看 | 久久亚洲国产午夜精品理论片 | 欧美 另类 精品一区视频 | 国产主播精品福利19禁vip | 日本在线加勒比 | 高清视频一区 | 91久久青草精品38国产 | 欧美有码在线观看 | 免费视频网站一级人爱视频 | 99久久精品无码一区二区毛片 | 中文字幕成人在线观看 | 欧美日韩亚洲高清不卡一区二区三区 | 黄色三级国产 | 日本欧美亚洲 | 欧美另类视频在线观看 | 在线视频一二三区 | 国产精品女在线观看 | 四川一级片 | 欧美xx一片 | 亚洲自拍在线观看 | 成人免费手机在线看网站 | 亚洲视频免费一区 | 亚洲经典在线中文字幕 | 91av福利视频 | 亚洲国产三级在线观看 | 国产精品久久久久久久专区 | 国产91精品在线 | 久久青草国产手机看片福利盒子 | 欧美大狠狠大臿蕉香蕉大视频 | 免费毛片儿| 国产黄色小视频 | 欧美日韩另类在线观看视频 | 欧美成人交tv免费观看 | aa级毛片毛片免费观看久 | 欧美日韩永久久一区二区三区 |