国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問(wèn)

瀏覽:136日期:2022-06-30 08:28:51

問(wèn)題描述

在使用scrapy抓取數(shù)據(jù)時(shí),利用itemloader這個(gè)類,使用selector取出的值為空時(shí),進(jìn)入scrapy.Field()里調(diào)用filter(),selector取值不為空的確返回'有值',如果selector取出[]或'',那么value進(jìn)入filter()之后,并不會(huì)返回'無(wú)值'

def filter(value): if value:return '有值' else:return '無(wú)值' # 下面就簡(jiǎn)寫了,熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值,經(jīng)過(guò)filyer()之后變成'無(wú)值'

問(wèn)題解答

回答1:

謝邀~不太了解Scrapy,所以題主這個(gè)我不太好說(shuō)我用PHP自己寫的爬蟲大體思路是:1.先是根據(jù)正則和一些循環(huán),把要收集的頁(yè)面放到隊(duì)列里,按類別分類,例如分頁(yè)的列表頁(yè)一個(gè)隊(duì)列,列表里的數(shù)據(jù)內(nèi)容頁(yè)一個(gè)隊(duì)列。2.然后利用xpath來(lái)爬取相關(guān)內(nèi)容頁(yè)的數(shù)據(jù),爬取的過(guò)程中對(duì)一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù),按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣,我絕對(duì)大部分爬蟲框架也大概都是這種思路吧,無(wú)非是在此基礎(chǔ)上增加了,反爬機(jī)制,多線程,多進(jìn)程,增量爬取等等功能。所以,題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 欧美日韩一区在线观看 | 一级毛片成人免费看a | gogo999亚洲肉体艺术大胆 | 午夜视频久久 | 91在线产啪 | 久久视频免费在线观看 | 免费观看欧美性一级 | 国产一区曰韩二区欧美三区 | 久久精品国产这里是免费 | 亚洲精品国产一区二区 | 香蕉超级碰碰碰97视频蜜芽 | 国产毛片a精品毛 | 亚洲大片免费观看 | 国产亚洲网站 | 80岁色老头69av | 日本亚洲欧美国产日韩ay高清 | 日韩精品三级 | 免费岛国小视频在线观看 | 久久一二 | 视频国产91 | 欧美一区视频在线 | www.午夜| 日韩在线三级视频 | 一级a毛片免费观看久久精品 | 日本一级特黄啪啪片 | 久久九九色 | 久久精品国产99久久 | 亚洲成人一级片 | 成人免费在线视频 | 精品9e精品视频在线观看 | 亚洲视频在线观看网站 | 国内精自线一二区 | 日韩精品欧美国产精品亚 | 国产精品亚洲片在线观看不卡 | 日本不卡免费高清一级视频 | 黄网站色成年小说系列 | 欧美成人黄色网 | 国产欧美曰韩一区二区三区 | 国产香蕉影视院 | 草草影院视频 | 在线播放一区二区精品产 |