国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

瀏覽:114日期:2022-07-25 17:42:22

問題描述

寫了一小段代碼,爬取博客園博客中的圖片,這段代碼對部分鏈接有效,還有一部分鏈接一爬就報錯,這是什么原因呢?

#coding=utf-8import urllibimport refrom lxml import etree#解析地址def getHtml(url): page = urllib.urlopen(url) html = page.read() return html#獲取地址并建樹url = 'http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html'html = getHtml(url)html = html.decode('utf-8')tree = etree.HTML(html)#保存圖片至本地reg = r’src='http://www.cgvv.com.cn/wenda/(.*?)' alt’imgre = re.compile(reg)imglist = re.findall(imgre, html)x = 0for imgurl in imglist: urllib.urlretrieve(imgurl, ’%s.jpg’ % x) x += 1

如圖,可以正確爬取圖片網頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

若把url換為

url = 'http://www.cnblogs.com/baronzhang/p/6861258.html'

則立馬報錯

網頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

求解決,謝謝!

問題解答

回答1:

錯誤提示已經很明顯了,你去看下網頁源代碼,匹配到的第一張圖片是一個GIF格式的,并且還是相對路徑,所以你是下載不到的,故提示IOerror,就算你下載到了,因為你指定了格式為JPG,你也打不開。 因此你需要做的就是判斷和篩選

for imgurl in imglist: if 'gif' not in imgurl:urllib.urlretrieve(imgurl, ’%s.jpg’ % x)x += 1

看下我增加的地方,當然這只是最簡單的判斷,但可以保證你第二個程序不會報錯,也是給你一個思路!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 99免费在线观看视频 | 成人看片黄a在线看 | 亚洲精品国产成人7777 | 国内久久久 | 亲子乱子伦xxxx | rion美乳弹出来四虎在线观看 | 黄色一级片a | 亚洲欧美v视色一区二区 | 国产香蕉国产精品偷在线观看 | 婷婷尹人香蕉久久天堂 | 99精品这里只有精品高清视频 | 精品免费久久久久久成人影院 | 欧美理论大片清免费观看 | 一区二区三区精品视频 | 成年人在线观看免费 | www久久| 天天欲色成人综合网站 | 在线不卡一区 | 免费观看欧美精品成人毛片能看的 | 欧美同性videos在线可播放 | 欧美国产日韩在线播放 | 国产女厕偷窥系列在线视频 | 日韩一级片网址 | 欧美aaa级| 国产日韩欧美在线 | 免费一级a毛片在线 | 曰本毛片va看到爽不卡 | 欧美a免费 | 成人黄页网站 | 91香蕉视频免费 | 久久国产夜色精品噜噜亚洲a | 久久爰www免费人成 久久曰视频 | 一级视频在线播放 | 欧美成人观看免费版 | 中文字幕成人免费高清在线视频 | 欧美人性影片免费看 | 免费韩国美女爽快一级毛片 | 中国a级黄色片 | 成 人 a v免费视频 | 成人国产综合 | 韩国一级毛片在线观看 |