文章詳情頁

Selenium結合BeautifulSoup4編寫簡單的python爬蟲

瀏覽：6日期：2022-07-06 09:40:35

在學會了抓包，接口請求(如requests庫）和Selenium的一些操作方法后，基本上就可以編寫爬蟲，爬取絕大多數網站的內容。

在爬蟲領域，Selenium永遠是最后一道防線。從本質上來說，訪問網頁實際上就是一個接口請求。請求url后，返回的是網頁的源代碼。

我們只需要解析html或者通過正則匹配提取出我們需要的數據即可。

有些網站我們可以使用requests.get(url)，得到的響應文本中獲取到所有的數據。而有些網頁數據是通過JS動態加載到頁面中的。使用requests獲取不到或者只能獲取到一部分數據。此時我們就可以使用selenium打開頁面來，使用driver.page_source來獲取JS執行完后的完整源代碼。

例如，我們要爬取，diro官網女包的名稱，價格，url,圖片等數據，可以使用requests先獲取到網頁源代碼：訪問網頁，打開開發者工具，我們可以看到所有的商品都在一個

標簽里，展開這個li標簽，我們可找到商品名稱，價格，url，圖片鏈接等信息

Selenium結合BeautifulSoup4編寫簡單的python爬蟲

從html格式的源碼中提取數據，有多種選擇，可以使用xml.etree等等方式，bs4是一個比較方便易用的html解析庫，配合lxml解析速度比較快。

bs4的使用方法為

from bs4 import BeautifulSoupsoup = BeautifulSoup(網頁源代碼字符串,’lxml’)soup.find(...).find(...)soup.findall()soup.select(’css selector語法’)

soup.find()可以通過節點屬性進行查找，如，soup.find(’div’, id=’節點id’)或soup.find(’li’, class_=’某個類名’)或soup.find(’標簽名’, 屬性=屬性值)，當找到一個節點后，還可以使用這個節點繼續在其子節點中查找。soup.find_all()是查找多個，同樣屬性的節點，返回一個列表。soup.select()是使用css selector語法查找，返回一個列表。

以下為示例代碼：

from selenium import webdriverfrom bs4 import BeautifulSoupdriver = webdriver.Chrome()driver.get(’https://www.dior.cn/zh_cn/女士精品/皮具系列/所有手提包’)soup = BeautifulSoup(driver.page_source, ’lxml’)products = soup.select(’li.is-product’)for product in products: name = product.find(’span’, class_=’product-title’).text.strip() price = product.find(’span’, class_=’price-line’).text.replace(’￥’, ’’).replace(’,’,’’) url = ’https://www.dior.cn’ + product.find(’a’, class_=’product-link’).attrs[’href’] img = product.find(’img’).attrs[’src’] sku = img.split(’/’)[-1] print(name, sku, price)driver.quit()

運行結果，如下圖：

Selenium結合BeautifulSoup4編寫簡單的python爬蟲

注：本例中，也可以使用requests.get()獲取網頁源代碼，格式和使用selenium加載的稍有不同。

一般簡單爬蟲編寫的步驟為：

進入列表頁，打開開發者工具，刷新頁面及向下滾動，查看新產品加載，是否能抓到XHR數據接口（直接返回JSON格式所有產品數據的接口）如果有這種接口，嘗試修改參數中的分頁值，和請求總數值，看看是否能從一個接口返回所有的商品數據如果只有Doc類型的接口返回頁面，嘗試使用requests.get()請求頁面，分析響應文本，是否包含所有商品數據如果requests獲取不到商品數據或數據不全可以使用selenium加載頁面，然后使用bs4解析提取，如果有多個頁面，循環逐個操作即可。

以上就是Selenium結合BeautifulSoup4編寫簡單的python爬蟲的詳細內容，更多關于python 爬蟲的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：基于python模擬TCP3次握手連接及發送數據下一條：python兩種獲取剪貼板內容的方法

相關文章：

1. HTML中的XML數據島記錄編輯與添加2. 三個不常見的 HTML5 實用新特性簡介3. 淺談CSS不規則邊框的生成方案4. html中的form不提交（排除）某些input 原創5. asp在iis7報錯行號不準問題的解決方法6. msxml3.dll 錯誤 800c0019 系統錯誤:-2146697191解決方法7. CSS可以做的幾個令你嘆為觀止的實例分享8. 詳解盒子端CSS動畫性能提升9. CSS linear-gradient屬性案例詳解10. CSS百分比padding制作圖片自適應布局

排行榜

					
					PHP連接MySQL數據庫操作代碼實例解析
詳解Python中openpyxl模塊基本用法
深度源碼解析Java 線程池的實現原理
Vue中父子組件的值傳遞與方法傳遞
python和opencv構建運動檢測器的實現
每日六道java新手入門面試題,通往自由的道路--JVM
JSR 196:pluggable authentication for JEE containers 草案發布
asp在iis7報錯行號不準問題的解決方法
vue路由切換時取消之前的所有請求操作
Vue實現div滾輪放大縮小
Python如何批量生成和調用變量