国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

網(wǎng)頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬?。?/h1>
瀏覽:122日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網(wǎng)站,我需要判斷網(wǎng)頁是否可以爬取,第一反應(yīng)是通過狀態(tài)碼來判斷,但是寫完運(yùn)行后發(fā)現(xiàn)有許多目標(biāo)網(wǎng)站訪問它不存在的頁面時(shí)會(huì)返回一個(gè)404錯(cuò)誤頁面,可他的狀態(tài)碼卻是200,結(jié)果爬回來好多根本就不存在的頁面。這個(gè)本來是網(wǎng)站設(shè)置的問題,但是現(xiàn)在也不能用狀態(tài)碼來判斷了,請(qǐng)問還有什么方法可以正確判斷一個(gè)頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態(tài)碼,是網(wǎng)絡(luò)連接狀態(tài), 所以你只判斷200并不能滿足所有網(wǎng)站。

其次, 寫爬蟲嘛, 你應(yīng)該實(shí)際去看看這些網(wǎng)站的規(guī)則是什么,可以先人工判斷下, 找找規(guī)律, 比如看看網(wǎng)頁返回內(nèi)容是不是有什么特點(diǎn)之類的。

回答2:

做個(gè)網(wǎng)頁內(nèi)容的判斷,如果他網(wǎng)頁里面沒有內(nèi)容就直接返回。

回答3:

就算是頁面狀態(tài)碼200,返回的404頁面,應(yīng)該和正常能爬取的頁面html有不同的html元素吧,根據(jù)有沒有特定的html元素來判斷是不是404頁面也行的

標(biāo)簽: Python 編程
相關(guān)文章:

主站蜘蛛池模板: 日韩欧美视频一区二区在线观看 | 韩国美女爽快毛片免费 | 久久免费播放 | 三级三级三级网站网址 | 欧美精品色精品一区二区三区 | 欧美1314性欧美 | 亚洲国产精品专区 | 红色记忆 | 秘书高跟黑色丝袜国产91在线 | 欧美一区二区免费 | 久久毛片免费 | 欧美一级片 在线播放 | 亚洲免费视频一区 | 久久精品国产免费观看99 | 久久精品国产一区 | 亚洲精品一区二区不卡 | 亚洲片在线观看 | 欧美成人精品福利在线视频 | 国产视频一二三 | 国产成人亚洲欧美三区综合 | 亚洲精品一区二区 | 暖暖在线精品日本中文 | 亚洲黄色美女视频 | 国产一区二区影视 | 一级毛片美国一级j毛片不卡 | 成人精品国产亚洲 | 亚洲片在线观看 | 亚洲欧美卡通成人制服动漫 | 久久精品视频免费观看 | 国产精品区一区二区免费 | 欧美高清一区二区三 | 亚洲一区二区三区影院 | 视频二区国产 | 国产性生活 | 在线播放一区二区精品产 | 日本不卡一二三区 | 一区二区三区日韩精品 | 性欧美美国级毛片 | 成人国产欧美精品一区二区 | 精品videosex性欧美 | 国产精品专区第二 |