文章詳情頁

python - scrapy獲取網(wǎng)頁指定內(nèi)容，后翻到下一頁繼續(xù)，固定循環(huán)次數(shù)。。問題

瀏覽：194日期：2022-06-29 18:45:48

問題描述

import scrapyfrom movie.items import MovieItem class MeijuSpider(scrapy.Spider): name = 'meiju' allowed_domains = ['alexa.cn'] start_urls = [’www.alexa.cn/siterank’] def parse(self, response): movies = response.xpath(’//ul[@class='siterank-sitelist']/li’) for each_movie in movies:item = MovieItem()item[’name’] =each_movie.xpath(’.//p[@class='infos']’).extract()[0]yield item

代碼是這樣的。我想循環(huán)抓取的是：

www.alexa.cn/siterank/2www.alexa.cn/siterank/3www.alexa.cn/siterank/4.....

我看循環(huán)應(yīng)該是這樣的for i in range(2,10):yield scrapy.Request(’www.alexa.cn/siterank/%d’%i)，但是我不知道怎么填進(jìn)去。求助

問題解答

回答1：

若你範(fàn)圍都確定的話，不如從start_urls 下手

start_urls = [’http://www.alexa.cn/siterank/{n}’.format(n=x) for x in range(2,10)] 回答2：

官網(wǎng)上有例子，關(guān)于追蹤下一頁，官網(wǎng)上面的例子用的是遞歸，官網(wǎng)的代碼如下：

import scrapyclass QuotesSpider(scrapy.Spider): name = 'quotes' start_urls = [’http://quotes.toscrape.com/page/1/’, ] def parse(self, response):for quote in response.css(’p.quote’): yield {’text’: quote.css(’span.text::text’).extract_first(),’author’: quote.css(’small.author::text’).extract_first(),’tags’: quote.css(’p.tags a.tag::text’).extract(), }# next_page是用css選擇器獲取到的下一頁，在下面它遞歸地調(diào)用了parse方法來不斷地追蹤下一頁next_page = response.css(’li.next a::attr(href)’).extract_first()if next_page is not None: next_page = response.urljoin(next_page) yield scrapy.Request(next_page, callback=self.parse)

我自己用Scrapy寫了一個(gè)貼吧的爬蟲，獲取下一頁用的也是這種遞歸的方法，代碼如下：

import scrapyfrom tieba_crawler.items import ImageItemclass TiebaSpider(scrapy.Spider): name = ’tbimg’ def start_requests(self):url = ’http://tieba.baidu.com/f?kw=%E6%B8%A1%E8%BE%B9%E9%BA%BB%E5%8F%8B’yield scrapy.Request(url=url, callback=self.parse_post) def parse_post(self, response):post_list = response.css(’ul#thread_list li.j_thread_list’)for item in post_list: title = item.css(’a.j_th_tit::text’).extract_first() url = ’http://tieba.baidu.com’ + item.css(’a.j_th_tit::attr(href)’).extract_first() yield scrapy.Request(url=url, callback=self.parse_image)page_list = response.css(’p#frs_list_pager a::attr(href)’).extract()if not page_list: returnelse: next_page = page_list[-2] if next_page:yield response.follow(next_page, callback=self.parse_post) def parse_image(self, response):img_urls = response.css(’p#j_p_postlist img.BDE_Image::attr(src)’).extract()yield ImageItem(image_urls=img_urls)page_list = response.css(’ul.l_posts_num li.pb_list_pager a::attr(href)’).extract()if not page_list: returnelse: next_page = page_list[-2] if next_page:yield response.follow(next_page, callback=self.parse_image)

Python 編程

上一條：如何提高python查詢速度？下一條：python2.7為什么點(diǎn)擊了"開始"按鈕后，tkinter上的按鈕，圖中紅色部分，再也點(diǎn)不動(dòng)了？

排行榜

					
					docker gitlab 如何git clone？
debian - docker依賴的aufs-tools源碼哪里可以找到啊？
docker內(nèi)創(chuàng)建jenkins訪問另一個(gè)容器下的服務(wù)器問題
golang - 用IDE看docker源碼時(shí)的小問題
如何解決Centos下Docker服務(wù)啟動(dòng)無響應(yīng)，且輸入docker命令無響應(yīng)？
javascript - 求解答：實(shí)例對(duì)象調(diào)用constructor，此時(shí)constructor內(nèi)的this的指向？
javascript - vscode alt+shift+f 格式化js代碼，通不過eslint的代碼風(fēng)格檢查怎么辦。。。
angular.js - Angular-Strap  模態(tài)框(Modal) 報(bào)錯(cuò)
java - 如何寫一個(gè)intellij-idea插件，實(shí)現(xiàn)編譯時(shí)修改源代碼的目的
IntelliJ IDEA無法解析導(dǎo)入javax.servlet。*;
javascript - iframe 為什么加載網(wǎng)頁的時(shí)候滾動(dòng)條這樣顯示？
				

熱門標(biāo)簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

python - scrapy獲取網(wǎng)頁指定內(nèi)容，后翻到下一頁繼續(xù)，固定循環(huán)次數(shù)。。問題