久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

您的位置:首頁技術(shù)文章
文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽:152日期:2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時(shí),利用itemloader這個(gè)類,使用selector取出的值為空時(shí),進(jìn)入scrapy.Field()里調(diào)用filter(),selector取值不為空的確返回'有值',如果selector取出[]或'',那么value進(jìn)入filter()之后,并不會(huì)返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡(jiǎn)寫了,熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值,經(jīng)過filyer()之后變成'無值'

問題解答

回答1:

謝邀~不太了解Scrapy,所以題主這個(gè)我不太好說我用PHP自己寫的爬蟲大體思路是:1.先是根據(jù)正則和一些循環(huán),把要收集的頁面放到隊(duì)列里,按類別分類,例如分頁的列表頁一個(gè)隊(duì)列,列表里的數(shù)據(jù)內(nèi)容頁一個(gè)隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù),爬取的過程中對(duì)一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù),按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣,我絕對(duì)大部分爬蟲框架也大概都是這種思路吧,無非是在此基礎(chǔ)上增加了,反爬機(jī)制,多線程,多進(jìn)程,增量爬取等等功能。所以,題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 郁南县| 临潭县| 东台市| 罗城| 介休市| 灵台县| 苍山县| 旅游| 乐业县| 洛扎县| 张北县| 克东县| 湘潭市| 清河县| 常德市| 岐山县| 济南市| 盐津县| 波密县| 岑溪市| 淮安市| 库尔勒市| 达孜县| 昌乐县| 年辖:市辖区| 客服| 二连浩特市| 宣武区| 龙门县| 卫辉市| 大足县| 化德县| 汤阴县| 神农架林区| 佛教| 永春县| 沛县| 安乡县| 台江县| 泸州市| 彰武县|