文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？

瀏覽：141日期：2022-09-03 13:50:21

問題描述

用Python27些爬蟲，想要爬取一些網站，我需要判斷網頁是否可以爬取，第一反應是通過狀態碼來判斷，但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面，可他的狀態碼卻是200，結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題，但是現在也不能用狀態碼來判斷了，請問還有什么方法可以正確判斷一個頁面是不是404該不該爬？

問題解答

回答1：

首先， 200 狀態碼，是網絡連接狀態，所以你只判斷200并不能滿足所有網站。

其次，寫爬蟲嘛，你應該實際去看看這些網站的規則是什么，可以先人工判斷下，找找規律，比如看看網頁返回內容是不是有什么特點之類的。

回答2：

做個網頁內容的判斷，如果他網頁里面沒有內容就直接返回。

回答3：

就算是頁面狀態碼200，返回的404頁面，應該和正常能爬取的頁面html有不同的html元素吧，根據有沒有特定的html元素來判斷是不是404頁面也行的

Python 編程

上一條：python - Flask內如何跳轉至其他頁面。下一條：Python做掃描，發包速度實在是太慢了，有優化的方案嗎？

相關文章：

1. html - 移動端radio無法選中2. html5 - datatables 加載不出來數據。3. mysql - 數據庫JOIN查詢4. mysql - 這條聯合sql語句哪里錯了5. 我設置的背景怎么顯示不出來6. 關于Navicat連接到mysql，我改了root的密碼后，Navicat連接報錯1862？7. php7.3.4中怎么開啟pdo驅動8. python - 用scrapy-splash爬取網站為啥iframe下的內容沒有被返回9. mysql - 數據庫建字段，默認值空和empty string有什么區別 11010. windows-7 - Win7中Vmware Workstatoin與Xampp中Apache服務器端口沖突？

排行榜

					
					html - 移動端radio無法選中
JSP頁面導入問題類文件放在WEB-INF / classes中的包中
jquery - angularjs的數據為什么渲染不到頁面上?數據獲取到了,我的代碼哪里出了錯了?
mysql - 數據庫建字段，默認值空和empty string有什么區別 110
html5 - 在HBuilder中打包Android的apk包出錯，不知道是什么原因。
html - IOS二維碼識別問題
node.js - Mac下用 hexo 部署blog, 執行 hexo deploy 命令報錯
javascript - angular2中directive獲取點擊事件
javascript - 使用echarts做一個橫向的柱狀圖，但是數據超出坐標軸范圍了怎么辦？
正則表達式 - python pandas的sep參數問題
angular.js - Angular 刷新頁面問題
				

熱門標簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？