文章詳情頁(yè)

Python網(wǎng)頁(yè)解析器使用實(shí)例詳解

瀏覽：108日期：2022-07-23 18:07:59

python 網(wǎng)頁(yè)解析器

1、常見(jiàn)的python網(wǎng)頁(yè)解析工具有：re正則匹配、python自帶的html.parser模塊、第三方庫(kù)BeautifulSoup(重點(diǎn)學(xué)習(xí))以及l(fā)xm庫(kù)。

2、常見(jiàn)網(wǎng)頁(yè)解析器分類

（1）模糊匹配：re正則表達(dá)式即為字符串式的模糊匹配模式；

（2）結(jié)構(gòu)化解析： BeatufiulSoup、html.parser與lxml，他們都以DOM樹結(jié)構(gòu)為標(biāo)準(zhǔn)，進(jìn)行標(biāo)簽結(jié)構(gòu)信息的提取。

3.DOM樹解釋：即文檔對(duì)象模型（Document Object Model），其樹形標(biāo)簽結(jié)構(gòu)，請(qǐng)見(jiàn)下圖。

所謂結(jié)構(gòu)化解析，就是網(wǎng)頁(yè)解析器它會(huì)將下載的整個(gè)HTML文檔當(dāng)成一個(gè)Doucment對(duì)象，然后在利用其上下結(jié)構(gòu)的標(biāo)簽形式，對(duì)這個(gè)對(duì)象進(jìn)行上下級(jí)的標(biāo)簽進(jìn)行遍歷和信息提取操作。

# 引入相關(guān)的包，urllib與bs4，是獲取和解析網(wǎng)頁(yè)最常用的庫(kù)from urllib.request import urlopenfrom bs4 import BeautifulSoup# 打開(kāi)鏈接html=urlopen('https://www.datalearner.com/website_navi')# 通過(guò)urlopen獲得網(wǎng)頁(yè)對(duì)象，將其放入BeautifulSoup中，bsObj存放的目標(biāo)網(wǎng)頁(yè)的html文檔bsObj=BeautifulSoup(html.read())print(bsObj)

# soup = BeautifulSoup(open(url,’r’,encoding = ’utf-8’))

import requestsfrom bs4 import BeautifulSoupheaders={’User-Agent’: ’Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36’,’referer’:'www.mmjpg.com' }all_url = ’http://www.mmjpg.com/’ #’User-Agent’:請(qǐng)求方式 #’referer’:從哪個(gè)鏈接跳轉(zhuǎn)進(jìn)來(lái)的start_html = requests.get(all_url, headers=headers) #all_url：起始的地址，也就是訪問(wèn)的第一個(gè)頁(yè)面 #headers：請(qǐng)求頭，告訴服務(wù)器是誰(shuí)來(lái)了。 #requests.get：一個(gè)方法能獲取all_url的頁(yè)面內(nèi)容并且返回內(nèi)容。Soup = BeautifulSoup(start_html.text, ’lxml’) #BeautifulSoup：解析頁(yè)面 #lxml：解析器 #start_html.text：頁(yè)面的內(nèi)容

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：Python多線程正確用法實(shí)例解析下一條：Python定時(shí)任務(wù)APScheduler原理及實(shí)例解析

相關(guān)文章：

1. python如何寫個(gè)俄羅斯方塊2. 每日六道java新手入門面試題,通往自由的道路第二天3. python迭代器自定義類的具體方法4. 《CSS3實(shí)戰(zhàn)》筆記--漸變?cè)O(shè)計(jì)（一)5. 手把手教你用python發(fā)送短消息(基于阿里云平臺(tái))6. Python結(jié)合百度語(yǔ)音識(shí)別實(shí)現(xiàn)實(shí)時(shí)翻譯軟件的實(shí)現(xiàn)7. python b站視頻下載的五種版本8. 測(cè)試模式 - XSL教程 - 59. 讓chatgpt將html中的圖片轉(zhuǎn)為base64方法示例10. 教你JS更簡(jiǎn)單的獲取表單中數(shù)據(jù)(formdata)

排行榜

					
					讓chatgpt將html中的圖片轉(zhuǎn)為base64方法示例
《CSS3實(shí)戰(zhàn)》筆記--漸變?cè)O(shè)計(jì)（一)
教你JS更簡(jiǎn)單的獲取表單中數(shù)據(jù)(formdata)
python如何寫個(gè)俄羅斯方塊
JavaScript設(shè)計(jì)模式之策略模式實(shí)現(xiàn)原理詳解
Vue基于iview table展示圖片實(shí)現(xiàn)點(diǎn)擊放大
測(cè)試模式 - XSL教程 - 5
如何通過(guò)vscode運(yùn)行調(diào)試javascript代碼
使用SpringBoot自定義starter詳解
python b站視頻下載的五種版本
PHP設(shè)計(jì)模式（四）原型模式Prototype實(shí)例詳解【創(chuàng)建型】