文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽：152日期：2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時(shí)，利用itemloader這個(gè)類，使用selector取出的值為空時(shí)，進(jìn)入scrapy.Field()里調(diào)用filter()，selector取值不為空的確返回'有值'，如果selector取出[]或'',那么value進(jìn)入filter()之后，并不會(huì)返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡(jiǎn)寫了，熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值，經(jīng)過filyer()之后變成'無值'

問題解答

回答1：

謝邀~不太了解Scrapy，所以題主這個(gè)我不太好說我用PHP自己寫的爬蟲大體思路是：1.先是根據(jù)正則和一些循環(huán)，把要收集的頁面放到隊(duì)列里，按類別分類，例如分頁的列表頁一個(gè)隊(duì)列，列表里的數(shù)據(jù)內(nèi)容頁一個(gè)隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù)，爬取的過程中對(duì)一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù)，按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣，我絕對(duì)大部分爬蟲框架也大概都是這種思路吧，無非是在此基礎(chǔ)上增加了，反爬機(jī)制，多線程，多進(jìn)程，增量爬取等等功能。所以，題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

Python 編程

上一條：python - 面對(duì)一串含有亂碼的字符串，如何取下需要的信息下一條：python - 編碼問題求助

相關(guān)文章：

1. 哪位大神知道MySql怎么修改多行多列的數(shù)據(jù)?求指點(diǎn)2. 這是什么情況？？？3. 編輯管理員信息時(shí)，為什么沒有修改過的內(nèi)容會(huì)為空？4. phpadmin的數(shù)據(jù)庫(kù)，可以設(shè)置自動(dòng)變化時(shí)間的變量嗎？就是不需要接收時(shí)間數(shù)據(jù)，自動(dòng)變化5. mysql - thinkphp5 在MAC電腦本地正常，部署LINUX服務(wù)器之后，模型不存在6. 老哥們求助啊7. mysql服務(wù)無法啟動(dòng)1067錯(cuò)誤，誰知道正確的解決方法？8. PHP類封裝的插入數(shù)據(jù)，總是插入不成功，返回false；9. APP上傳到電腦服務(wù)器，出現(xiàn)數(shù)據(jù)上傳不完整的問題10. 求救一下，用新版的phpstudy，數(shù)據(jù)庫(kù)過段時(shí)間會(huì)消失是什么情況？

排行榜

					
					這是什么情況？？？
求救一下，用新版的phpstudy，數(shù)據(jù)庫(kù)過段時(shí)間會(huì)消失是什么情況？
PHP類封裝的插入數(shù)據(jù)，總是插入不成功，返回false；
百度地圖api - Android百度地圖SDK，MapView上層按鈕可見卻不可觸，怎么解決？
javascript - [多圖預(yù)警]reactjs點(diǎn)擊某表格編輯內(nèi)容，跳轉(zhuǎn)傳值this.context.router.params.id時(shí)id報(bào)錯(cuò)未定義
phpadmin的數(shù)據(jù)庫(kù)，可以設(shè)置自動(dòng)變化時(shí)間的變量嗎？就是不需要接收時(shí)間數(shù)據(jù)，自動(dòng)變化
javascript - 百度圖片切換圖片時(shí)url會(huì)改變，但無刷新，沒用hash，IE8也支持，請(qǐng)問是用了什么技術(shù)？
android - recyclerview顯示錯(cuò)亂
用Html5怎么實(shí)現(xiàn)簡(jiǎn)單選擇排序？
node.js - mongo TTL 數(shù)據(jù)過期不刪除
javascript -  為什么js代碼后面報(bào)錯(cuò)，會(huì)導(dǎo)致前面的代碼執(zhí)行不了，我確定后面的部分和前面的部分沒有邏輯上的關(guān)聯(lián)。
				

熱門標(biāo)簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問