文章詳情頁

python - seleium 爬網頁數據，只能怕當前頁，如果我輸入兩頁的話，會出現初始頁數據下載兩次的情況

瀏覽：135日期：2022-07-16 15:35:58

問題描述

import requestsfrom lxml import html,etreefrom selenium import webdriverimport time, json#how many page do you want to scanpage_numnotint = input('how many page do you want to scan')page_num = int(page_numnotint)file_name = ’jd_goods_data.json’url = ’https://list.jd.com/list.html?cat=1713,3264,3414&page=1&delivery=1&sort=sort_totalsales15_desc&trans=1&JL=4_10_0#J_main ’driver = webdriver.Chrome()driver.get(url)base_html = driver.page_sourceselctor = etree.HTML(base_html)date_info = []name_data, price_data = [], []jd_goods_data = {}for q in range(page_num): i = int(1) while True:name_string = ’//*[@id='plist']/ul/li[%d]/p/p[3]/a/em/text()’ %(i)price_string = ’//*[@id='plist']/ul/li[%d]/p/p[2]/strong[1]/i/text()’ %(i)if i == 60: breakelse: i += 1name = selctor.xpath(name_string)[0]name_data.append(name)price = selctor.xpath(price_string)[0]price_data.append(price)jd_goods_data[name] = priceprint(name_data)with open(file_name, ’w’) as f: json.dump(jd_goods_data, f) time.sleep(2) driver.find_element_by_xpath(’//*[@id='J_bottomPage']/span[1]/a[10]’).click() time.sleep(2)# for k, v in jd_goods_data.items(): # print(k,v) # with open(file_name, ’w’) as f: # json.dump(jd_goods_data, f)

問題解答

回答1：

import requestsfrom lxml import html,etreefrom selenium import webdriverimport time, json#how many page do you want to scanpage_numnotint = input('how many page do you want to scan')page_num = int(page_numnotint)file_name = ’jd_goods_data.json’driver = webdriver.Chrome()date_info = []name_data, price_data = [], []jd_goods_data = {}for q in range(page_num): url = ’https://list.jd.com/list.html?cat=1713,3264,3414&page={page}&delivery=1&sort=sort_totalsales15_desc&trans=1&JL=4_10_0#J_main’.format(page=q) driver.get(url) base_html = driver.page_source selctor = etree.HTML(base_html) i = 1 while True:name_string = ’//*[@id='plist']/ul/li[%d]/p/p[3]/a/em/text()’ %(i)price_string = ’//*[@id='plist']/ul/li[%d]/p/p[2]/strong[1]/i/text()’ %(i)if i == 60: breakelse: i += 1name = selctor.xpath(name_string)[0]name_data.append(name)price = selctor.xpath(price_string)[0]price_data.append(price)jd_goods_data[name] = priceprint(name_data)with open(file_name, ’w’) as f: json.dump(jd_goods_data, f)driver.quit()

Python 編程

上一條：python - pycharm注冊碼問題？下一條：Python如何播放還存在StringIO中的MP3?

排行榜

					
					dockerfile - 我用docker build的時候出現下邊問題  麻煩幫我看一下
這是什么情況？？？
求救一下，用新版的phpstudy，數據庫過段時間會消失是什么情況？
百度地圖api - Android百度地圖SDK，MapView上層按鈕可見卻不可觸，怎么解決？
javascript - 百度圖片切換圖片時url會改變，但無刷新，沒用hash，IE8也支持，請問是用了什么技術？
android - recyclerview顯示錯亂
angular.js - angular 配置代理proxy.conf.json后報錯，頁面返回500internal server error？
用Html5怎么實現簡單選擇排序？
node.js - mongo TTL 數據過期不刪除
javascript -  為什么js代碼后面報錯，會導致前面的代碼執行不了，我確定后面的部分和前面的部分沒有邏輯上的關聯。
angular.js - gulp 壓縮后angular報錯問題
				

熱門標簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

python - seleium 爬網頁數據，只能怕當前頁，如果我輸入兩頁的話，會出現初始頁數據下載兩次的情況