文章詳情頁

用python寫爬蟲簡單嗎

瀏覽：2日期：2022-07-16 09:06:21

所謂網(wǎng)絡(luò)爬蟲，通俗的講，就是通過向我們需要的URL發(fā)出http請求，獲取該URL對應(yīng)的http報文主體內(nèi)容，之后提取該報文主體中我們所需要的信息。

下面是一個簡單的爬蟲程序

http基本知識

當(dāng)我們通過瀏覽器訪問指定的URL時，需要遵守http協(xié)議。本節(jié)將介紹一些關(guān)于http的基礎(chǔ)知識。

http基本流程

我們打開一個網(wǎng)頁的過程，就是一次http請求的過程。這個過程中，我們自己的主機(jī)充當(dāng)著客戶機(jī)的作用，而充當(dāng)客戶端的是瀏覽器。我們輸入的URL對應(yīng)著網(wǎng)絡(luò)中某臺服務(wù)器上面的資源，服務(wù)器接收到客戶端發(fā)出的http請求之后，會給客戶端一個響應(yīng)，響應(yīng)的內(nèi)容就是請求的URL對應(yīng)的內(nèi)容，當(dāng)客戶端接收到服務(wù)器的響應(yīng)時，我們就可以在瀏覽器上看見請求的信息了。

我們可以通過python的requests模塊很方便的發(fā)起http請求。requests模塊是第三方模塊，安裝完成之后直接import就能使用。下面介紹一些簡單的用法

發(fā)起請求

import requests# 請求的首部信息headers = { ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36’}# 例子的urlurl = ’https://voice.hupu.com/nba’ # 虎撲nba新聞# 利用requests對象的get方法，對指定的url發(fā)起請求# 該方法會返回一個Response對象res = requests.get(url, headers=headers)# 通過Response對象的text方法獲取網(wǎng)頁的文本信息print(res.text)

上面的代碼中，我們向虎撲的服務(wù)器發(fā)送了一個get請求，獲取虎撲首頁的nba新聞。headers參數(shù)指的是http請求的首部信息，我們請求的url對應(yīng)的資源是虎撲nba新聞的首頁。獲取到對應(yīng)的網(wǎng)頁資源之后，我們需要對其中的信息進(jìn)行提取。

通過BeautifulSoup提取網(wǎng)頁信息

BeautifulSoup庫提供了很多解析html的方法，可以幫助我們很方便地提取我們需要的內(nèi)容。我們這里說的BeautifulSoup指的是bs4。當(dāng)我們成功抓取網(wǎng)頁之后，就可以通過BeautifulSoup對象對網(wǎng)頁內(nèi)容進(jìn)行解析。在BeautifulSoup中，我們最常用的方法就是find()方法和find_all()方法，借助于這兩個方法，可以輕松地獲取到我們需要的標(biāo)簽或者標(biāo)簽組。關(guān)于其他的方法，可以參考bs4的官方文檔：BeautifulSoup

find()方法和find_all()方法的用法如下

find(name , attrs , recursive , string , **kwargs )# find_all()方法將返回文檔中符合條件的所有tag，find_all(name , attrs , recursive , string , **kwargs )

from bs4 import BeautifulSoup# BeautifulSoup對象接收html文檔字符串# lxml是html解析器soup = Beautiful(res.text, ’lxml’)# 下面的方法找出了所有class為hello的span標(biāo)簽# 并將所有的結(jié)果都放入一個list返回tags = soup.find_all(’span’, {’class’: ’hello’})

實例擴(kuò)展：

實例一：

#第一種方法import urllib2 #將urllib2庫引用進(jìn)來response=urllib2.urlopen('http://www.baidu.com') #調(diào)用庫中的方法，將請求回應(yīng)封裝到response對象中html=response.read() #調(diào)用response對象的read（）方法，將回應(yīng)字符串賦給hhtml變量print html #打印出來

實例二：

#第二中方法import urllib2req=urllib2.Request('http://ww.baidu.com')response=urllib2.urlopen(req)html = response.read()print html

到此這篇關(guān)于用python寫爬蟲簡單嗎的文章就介紹到這了,更多相關(guān)python寫爬蟲難嗎內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python selenium鍵盤鼠標(biāo)事件實現(xiàn)過程詳解下一條：python如何爬取網(wǎng)頁中的文字

相關(guān)文章：

1. PHP循環(huán)與分支知識點梳理2. 利用ajax+php實現(xiàn)商品價格計算3. ThinkPHP5 通過ajax插入圖片并實時顯示(完整代碼)4. jsp EL表達(dá)式詳解5. JavaWeb Servlet中url-pattern的使用6. ASP中格式化時間短日期補(bǔ)0變兩位長日期的方法7. Ajax請求超時與網(wǎng)絡(luò)異常處理圖文詳解8. JSP之表單提交get和post的區(qū)別詳解及實例9. .NET6打包部署到Windows Service的全過程10. XML入門的常見問題(一)

排行榜

					
					IntelliJ IDEA導(dǎo)入jar包的方法
IntelliJ IDEA安裝插件的方法步驟
iOS實現(xiàn)電子簽名
python3從網(wǎng)絡(luò)攝像機(jī)解析mjpeg http流的示例
java 設(shè)計模式之Observer
android實現(xiàn)okHttp的get和post請求的簡單封裝與使用
python實現(xiàn)TCP文件接收發(fā)送
python目標(biāo)檢測給圖畫框,bbox畫到圖上并保存案例
JSP之表單提交get和post的區(qū)別詳解及實例
PHP循環(huán)與分支知識點梳理
Python TestSuite生成測試報告過程解析