Python中Pyspider爬蟲框架的基本使用詳解
一個(gè)國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的WebUI。采用Python語言編寫,分布式架構(gòu),支持多種數(shù)據(jù)庫后端,強(qiáng)大的WebUI支持腳本編輯器,任務(wù)監(jiān)視器,項(xiàng)目管理器以及結(jié)果查看器。
用Python編寫腳本 功能強(qiáng)大的WebUI,包含腳本編輯器,任務(wù)監(jiān)視器,項(xiàng)目管理器和結(jié)果查看器 MySQL,MongoDB,Redis,SQLite,Elasticsearch ; PostgreSQL與SQLAlchemy作為數(shù)據(jù)庫后端 RabbitMQ,Beanstalk,Redis和Kombu作為消息隊(duì)列 任務(wù)優(yōu)先級,重試,定期,按年齡重新抓取等... 分布式架構(gòu),抓取JavaScript頁面,Python 2和3等... 2.pyspider文檔1>中文文檔:http://www.pyspider.cn/
2>英文文檔:http://docs.pyspider.org/
3.pyspider安裝打開cmd命令行工具,執(zhí)行命令
pip install pyspider
出現(xiàn)下圖則安裝成功
安裝pyspider后,打開cmd命令工具,執(zhí)行命令來啟動服務(wù)器
pyspider
出現(xiàn)下圖則啟動服務(wù)成功,默認(rèn)地址端口為127.0.0.1:5000
輸入地址127.0.0.1:5000,打開WebUI界面
隊(duì)列統(tǒng)計(jì)是為了方便查看爬蟲狀態(tài),優(yōu)化爬蟲爬取速度新增的狀態(tài)統(tǒng)計(jì).每個(gè)組件之間的數(shù)字就是對應(yīng)不同隊(duì)列的排隊(duì)數(shù)量.通常來是0或是個(gè)位數(shù).如果達(dá)到了幾十甚至一百說明下游組件出現(xiàn)了瓶頸或錯(cuò)誤,需要分析處理.
新建項(xiàng)目:pyspider與scrapy最大的區(qū)別就在這,pyspider新建項(xiàng)目調(diào)試項(xiàng)目完全在web下進(jìn)行,而scrapy是在命令行下開發(fā)并運(yùn)行測試.
組名:項(xiàng)目新建后一般來說是不能修改項(xiàng)目名的,如果需要特殊標(biāo)記可修改組名.直接在組名上點(diǎn)鼠標(biāo)左鍵進(jìn)行修改.注意:組名改為delete后如果狀態(tài)為stop狀態(tài),24小時(shí)后項(xiàng)目會被系統(tǒng)刪除.
運(yùn)行狀態(tài):這一欄顯示的是當(dāng)前項(xiàng)目的運(yùn)行狀態(tài).每個(gè)項(xiàng)目的運(yùn)行狀態(tài)都是單獨(dú)設(shè)置的.直接在每個(gè)項(xiàng)目的運(yùn)行狀態(tài)上點(diǎn)鼠標(biāo)左鍵進(jìn)行修改.運(yùn)行分為五個(gè)狀態(tài):TODO,STOP,CHECKING,DEBUG,RUNNING.各狀態(tài)說明:TODO是新建項(xiàng)目后的默認(rèn)狀態(tài),不會運(yùn)行項(xiàng)目.STOP狀態(tài)是停止?fàn)顟B(tài),也不會運(yùn)行.CHECHING是修改項(xiàng)目代碼后自動變的狀態(tài).DEBUG是調(diào)試模式,遇到錯(cuò)誤信息會停止繼續(xù)運(yùn)行,RUNNING是運(yùn)行狀態(tài),遇到錯(cuò)誤會自動嘗試,如果還是錯(cuò)誤會跳過錯(cuò)誤的任務(wù)繼續(xù)運(yùn)行.
速度控制:很多朋友安裝好用說爬的慢,多數(shù)情況是速度被限制了.這個(gè)功能就是速度設(shè)置項(xiàng).rate是每秒爬取頁面數(shù),burst是并發(fā)數(shù).如1/3是三個(gè)并發(fā),每秒爬取一個(gè)頁面.
簡單統(tǒng)計(jì):這個(gè)功能只是簡單的做的運(yùn)行狀態(tài)統(tǒng)計(jì),5m是五分鐘內(nèi)任務(wù)執(zhí)行情況,1h是一小時(shí)內(nèi)運(yùn)行任務(wù)統(tǒng)計(jì),1d是一天內(nèi)運(yùn)行統(tǒng)計(jì),all是所有的任務(wù)統(tǒng)計(jì).
運(yùn)行:run按鈕是項(xiàng)目初次運(yùn)行需要點(diǎn)的按鈕,這個(gè)功能會運(yùn)行項(xiàng)目的on_start方法來生成入口任務(wù).
任務(wù)列表:顯示最新任務(wù)列表,方便查看狀態(tài),查看錯(cuò)誤等
結(jié)果查看:查看項(xiàng)目爬取的結(jié)果.
5.創(chuàng)建pyspider項(xiàng)目點(diǎn)擊上圖中的新建項(xiàng)目按鈕
到此這篇關(guān)于Python中Pyspider爬蟲框架的基本使用詳解的文章就介紹到這了,更多相關(guān)Pyspider爬蟲框架使用內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. ASP基礎(chǔ)知識Command對象講解2. JavaScrip簡單數(shù)據(jù)類型隱式轉(zhuǎn)換的實(shí)現(xiàn)3. ASP中實(shí)現(xiàn)字符部位類似.NET里String對象的PadLeft和PadRight函數(shù)4. 解決ajax請求后臺,有時(shí)收不到返回值的問題5. ASP.NET MVC通過勾選checkbox更改select的內(nèi)容6. 存儲于xml中需要的HTML轉(zhuǎn)義代碼7. javascript xml xsl取值及數(shù)據(jù)修改第1/2頁8. XHTML 1.0:標(biāo)記新的開端9. jsp+mysql實(shí)現(xiàn)網(wǎng)頁的分頁查詢10. asp知識整理筆記4(問答模式)
