国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

python爬蟲之bs4數(shù)據(jù)解析

瀏覽:91日期:2022-06-21 10:09:07
一、實現(xiàn)數(shù)據(jù)解析

因為正則表達式本身有難度,所以在這里為大家介紹一下 bs4 實現(xiàn)數(shù)據(jù)解析。除此之外還有 xpath 解析。因為 xpath 不僅可以在 python 中使用,所以 bs4 和 正則解析一樣,僅僅是簡單地寫兩個案例(爬取可翻頁的圖片,以及爬取三國演義)。以后的重點會在 xpath 上。

二、安裝庫

閑話少說,我們先來安裝 bs4 相關(guān)的外來庫。比較簡單。

1.首先打開 cmd 命令面板,依次安裝bs4 和 lxml。

2. 命令分別是 pip install bs4 和 pip install lxml 。

3. 安裝完成后我們可以試著調(diào)用他們,看看會不會報錯。

因為本人水平有限,所以如果出現(xiàn)報錯,兄弟們還是百度一下好啦。(總不至于 cmd 命令打錯了吧 ~~)

三、bs4 的用法

閑話少說,先簡單介紹一下 bs4 的用法。

python爬蟲之bs4數(shù)據(jù)解析python爬蟲之bs4數(shù)據(jù)解析

四、爬取圖片

import requestsfrom bs4 import BeautifulSoupimport osif __name__ == '__main__': # 創(chuàng)建文件夾 if not os.path.exists('./糗圖(bs4)'):os.mkdir('./糗圖(bs4)') # UA偽裝 header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'} # 指定 url for i in range(1, 3): # 翻兩頁url = 'https://www.qiushibaike.com/imgrank/page/%s/' % str(i)# 獲取源碼數(shù)據(jù)page = requests.get(url = url, headers = header).text# 數(shù)據(jù)解析soup = BeautifulSoup(page, 'lxml')data_list = soup.select('.thumb > a')for data in data_list: url = data.img['src'] title = url.split('/')[-1] new_url = 'https:' + url photo = requests.get(url = new_url, headers = header).content # 存儲 with open('./糗圖(bs4)/' + title, 'wb') as fp:fp.write(photo) print(title, '下載完成?。?!') print('over!!!')五、爬取三國演義

import requestsfrom bs4 import BeautifulSoupif __name__ == '__main__': # UA 偽裝 header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'} # URL url = 'http://sanguo.5000yan.com/' # 請求命令 page_text = requests.get(url = url, headers = header) page_text.encoding = 'utf-8' page_text = page_text.text soup = BeautifulSoup(page_text, 'lxml')# bs4 解析 li_list = soup.select('.sidamingzhu-list-mulu > ul > li')for li in li_list:print(li)new_url = li.a['href']title = li.a.text# 新的請求命令response = requests.get(url = new_url, headers = header)response.encoding = 'utf-8'new_page_text = response.textnew_soup = BeautifulSoup(new_page_text, 'lxml')page = new_soup.find('div', class_ = 'grap').textwith open('./三國演義.txt', 'a', encoding = 'utf-8') as fp: fp.write('n' + title + ':' + 'n' + 'n' + page)print(title + '下載完成?。?!')

到此這篇關(guān)于python爬蟲之bs4數(shù)據(jù)解析的文章就介紹到這了,更多相關(guān)python bs4數(shù)據(jù)解析內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 天天看片欧美 | 精品国产一区二区三区四区不 | 国产成人亚洲综合91精品555 | 乱人伦中文视频在线 | 欧美性毛片大片 | 91久久国产露脸精品免费 | 成年人网站免费视频 | 国产精品国内免费一区二区三区 | 黄色三级网址 | 久久亚洲国产午夜精品理论片 | 男人都懂的网址在线看片 | 欧美三级做爰在线 | 一级毛片视频免费 | 亚洲欧美在线观看播放 | 欧美日韩一区二区视频免费看 | 亚洲一区三区 | 国产精品亚洲片夜色在线 | 国产高清在线视频 | 精品国产成人三级在线观看 | 国产成人综合手机在线播放 | 国产精品久久久久久网站 | www.毛片com| 欧美成人免费全部色播 | 国产午夜三区视频在线 | 久久semm亚洲国产 | 免费黄色网址在线播放 | 国模在线播放 | 欧美a一片xxxx片| 国产三级网| 亚洲欧洲国产精品 | 久久久久亚洲香蕉网 | 日本精品高清一区二区2021 | 激情欧美一区二区三区 | 最刺激黄a大片免费网站 | 中文乱码一二三四有限公司 | 国产欧美日韩高清专区手机版 | 成人国产网站 | 久久青草国产手机看片福利盒子 | 国产精品久久久久久久毛片 | 欧美一级欧美三级在线观看 | 欧美一级做一a做片性视频 欧美一级做一级爱a做片性 |