国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

使用Python爬取小姐姐圖片(beautifulsoup法)

瀏覽:8日期:2022-06-28 08:01:17

Python有許多強(qiáng)大的庫用于爬蟲,如beautifulsoup、requests等,本文將以網(wǎng)站https://www.xiurenji.cc/XiuRen/為例(慎點(diǎn)!!),講解網(wǎng)絡(luò)爬取圖片的一般步驟。為什么選擇這個(gè)網(wǎng)站?其實(shí)與網(wǎng)站的內(nèi)容無關(guān)。主要有兩項(xiàng)技術(shù)層面的原因:①該網(wǎng)站的頁面構(gòu)造較有規(guī)律,適合新手對(duì)爬蟲的技巧加強(qiáng)認(rèn)識(shí)。②該網(wǎng)站沒有反爬蟲機(jī)制,可以放心使用爬蟲。

第三方庫需求

beautifulsoup requests 步驟

打開網(wǎng)站,點(diǎn)擊不同的頁面:發(fā)現(xiàn)其首頁是https://www.xiurenji.cc/XiuRen/,而第二頁是https://www.xiurenji.cc/XiuRen/index2.html,第三頁第四頁以此類推。為了爬蟲代碼的普適性,我們不妨從第二頁以后進(jìn)行構(gòu)造url。

使用Python爬取小姐姐圖片(beautifulsoup法)

選中封面圖片,點(diǎn)擊檢查:

使用Python爬取小姐姐圖片(beautifulsoup法)

可以發(fā)現(xiàn),圖片的信息,都在’div’,class_=’dan’里,而鏈接又在a標(biāo)簽下的href里。據(jù)此我們可以寫一段代碼提取出每一個(gè)封面圖片的url:

def getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網(wǎng)站每一個(gè)首頁的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding='gbk'#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁每一個(gè)封面對(duì)應(yīng)的網(wǎng)址

點(diǎn)擊封面圖片,打開不同的頁面,可以發(fā)現(xiàn),首頁的網(wǎng)址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二頁的網(wǎng)址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四頁同理。同樣為了普適性,我們從第二頁開始爬取。

使用Python爬取小姐姐圖片(beautifulsoup法)

右鍵,點(diǎn)擊“檢查”:

使用Python爬取小姐姐圖片(beautifulsoup法)

可以發(fā)現(xiàn)所有的圖片信息都儲(chǔ)存在’div’,class_=’img’中,鏈接、標(biāo)題分別在img標(biāo)簽中的src和alt中,我們同樣也可以將它們提取出來。

def getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網(wǎng)站每一個(gè)首頁的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding='gbk'#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁每一個(gè)封面對(duì)應(yīng)的網(wǎng)址

完整代碼

import requestsfrom bs4 import BeautifulSoupdef getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網(wǎng)站每一個(gè)首頁的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding='gbk'#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁每一個(gè)封面對(duì)應(yīng)的網(wǎng)址def download(urls): for url1 in urls: print('prepare to download pictures in '+url1) getEveryPage(url1)#下載頁面內(nèi)的圖片 print('all pictures in '+url1+'are downloaded') def getEveryPage(url1): total=0#total的作用:對(duì)屬于每一個(gè)封面內(nèi)的圖片一次編號(hào) for n in range (1,11):#每一個(gè)封面對(duì)應(yīng)下載10張圖,可自行調(diào)整 temp=url1.replace(’.html’,’’) url2=temp+’_’+str(n)+’.html’#獲得每一內(nèi)部頁面的網(wǎng)址 res=requests.get(url2) res.encoding='gbk' html=res.text soup=BeautifulSoup(html,features=’lxml’) lists1=soup.find_all(’div’,class_=’img’)#儲(chǔ)存圖片的路徑 for item in lists1: url=item.find(’img’).get(’src’) title=item.find(’img’).get(’alt’)#獲取圖片及其標(biāo)題 picurl=’https://www.xiurenji.cc’+url#獲取完整的圖片標(biāo)題 picture=requests.get(picurl).content#下載圖片 address=’D:pythonimages’+’’#自定義保存圖片的路徑 with open(address+title+str(total)+’.jpg’,’wb’) as file:#保存圖片 print('downloading'+title+str(total)) total=total+1 file.write(picture) if __name__ == '__main__': page=int(input(’input the page you want:’)) urls=getFirstPage(page) download(urls)

本文僅供學(xué)習(xí)參考,切勿用作其他用途!

到此這篇關(guān)于Python爬取小姐姐圖片(beautifulsoup法)的文章就介紹到這了,更多相關(guān)Python爬取小姐姐圖片內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 久草观看视频 | 我想看三级特黄 | 国内自拍在线视频高清 | 亚洲国产一区二区三区四区五区 | 国产精品视频成人 | 国产精品一区二区资源 | 免费国产视频在线观看 | 中文一级国产特级毛片视频 | 狠狠色狠狠色狠狠五月ady | 日本在线亚州精品视频在线 | 在线亚洲成人 | 日本一级~片免费永久 | 天堂va欧美ⅴa亚洲va一国产 | 一区在线免费 | 久久三级毛片 | 日韩成人在线观看视频 | 久久国产视频一区 | 午夜视频网站 | a级国产精品片在线观看 | 久久爱一区 | 精品国产中文一级毛片在线看 | 欧美日韩在线视频不卡一区二区三区 | 国产精品日本一区二区不卡视频 | 国产视频网站在线观看 | 日韩欧美亚洲综合久久99e | 日韩日b视频 | 日本欧美韩国一区二区三区 | 天天看片欧美 | 亚洲成av人片在线观看无码 | 91探花福利精品国产自产在线 | 2020精品极品国产色在线观看 | 久色国产 | 亚洲第一页乱 | 一级毛片情侣 | 国产精品免费观看视频播放 | 99爱在线观看精品视频 | 久久久久久久一线毛片 | 成人怡红院视频在线观看 | 亚洲第一成人天堂第一 | 亚洲在线偷拍自拍 | 中文字幕一二三四区2021 |