国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問(wèn)

瀏覽:136日期:2022-06-30 08:28:51

問(wèn)題描述

在使用scrapy抓取數(shù)據(jù)時(shí),利用itemloader這個(gè)類,使用selector取出的值為空時(shí),進(jìn)入scrapy.Field()里調(diào)用filter(),selector取值不為空的確返回'有值',如果selector取出[]或'',那么value進(jìn)入filter()之后,并不會(huì)返回'無(wú)值'

def filter(value): if value:return '有值' else:return '無(wú)值' # 下面就簡(jiǎn)寫了,熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值,經(jīng)過(guò)filyer()之后變成'無(wú)值'

問(wèn)題解答

回答1:

謝邀~不太了解Scrapy,所以題主這個(gè)我不太好說(shuō)我用PHP自己寫的爬蟲大體思路是:1.先是根據(jù)正則和一些循環(huán),把要收集的頁(yè)面放到隊(duì)列里,按類別分類,例如分頁(yè)的列表頁(yè)一個(gè)隊(duì)列,列表里的數(shù)據(jù)內(nèi)容頁(yè)一個(gè)隊(duì)列。2.然后利用xpath來(lái)爬取相關(guān)內(nèi)容頁(yè)的數(shù)據(jù),爬取的過(guò)程中對(duì)一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù),按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣,我絕對(duì)大部分爬蟲框架也大概都是這種思路吧,無(wú)非是在此基礎(chǔ)上增加了,反爬機(jī)制,多線程,多進(jìn)程,增量爬取等等功能。所以,題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 亚洲gogo人体大胆西西安徽 | 免费视频 久久久 | 欧美午夜不卡在线观看最新 | 国产片在线观看狂喷潮bt天堂 | 日韩一级不卡 | 国内一级野外a一级毛片 | 成人做爰免费网站 | 国产一级免费片 | 亚洲综合伦理一区 | 亚欧视频在线观看 | 9丨精品国产高清自在线看 ⅹxx中国xxx人妖 | 欧美日韩一区二区三在线 | 国产成人高清亚洲一区91 | 一级毛片无毒不卡直接观看 | 成人在免费观看视频国产 | 午夜视频在线观看一区二区 | 性高湖久久久久久久久aaaaa | 老外一级毛片免费看 | 亚洲一区二区三区四区五区六区 | 亚洲成人网页 | 人成午夜 | 国产精品视频久 | 特级深夜a级毛片免费观看 特级生活片 | 在线免费自拍 | 亚洲国产成人久久一区二区三区 | 日本免费一区尤物 | 九九99在线视频 | 久草在线视频免费资源观看 | 国内精品福利视频 | 欧美一区二区三区精品影视 | 国产1000部成人免费视频 | 九九精品99久久久香蕉 | 99在线热播精品免费 | 国产精品一区二区综合 | 在线视频免费国产成人 | 精品少妇一区二区三区视频 | 大片毛片女女女女女女女 | 久青草视频在线 | 国产精品成人一区二区 | 伊人色综合久久天天网蜜月 | 国产午夜精品久久久久小说 |