文章詳情頁

Python通過正則庫(kù)爬取淘寶商品信息代碼實(shí)例

瀏覽：3日期：2022-08-04 18:12:50

使用正則庫(kù)爬取淘寶商品的商品信息，首先我們需要確定想要爬取的對(duì)象

我們?cè)谔詫毨锼阉鳌皃ython”,出來的結(jié)果

從url連接中可以得到搜索商品的關(guān)鍵字是“q=”，所以我們要用的起始url為：https://s.taobao.com/search?q=python

然后翻頁，經(jīng)過對(duì)比發(fā)現(xiàn)，翻頁后，變化的關(guān)鍵字是s，每次翻頁，s便以44的倍數(shù)增長(zhǎng)（可以數(shù)一下每頁顯示的商品數(shù)量，剛好是44）所以可以根據(jù)關(guān)鍵字“s=”，來設(shè)置爬取的深度（爬取多少頁）

右鍵查看源碼，商品名稱可能的關(guān)鍵字是“title”和“raw_title”，進(jìn)一步多看幾個(gè)商品的名稱，發(fā)現(xiàn)選取“raw_title”比較合適；商品價(jià)格自然就是“view_price”(通過比對(duì)淘寶商品展示頁面)；所以商品名稱和商品價(jià)格分別是以'raw_title':'名稱'和'view_price':'價(jià)格'，這樣的鍵/值對(duì)的形式展示的。

# coding:utf-8import requestsimport regoods = ’水杯’url = ’https://s.taobao.com/search?q=’ + goodsr = requests.get(url=url, timeout=10)html = r.texttlist = re.findall(r’'raw_title':'.*?'’, html) # 正則提取商品名稱plist = re.findall(r’'view_price':'[d.]*'’, html) # 正則提示商品價(jià)格print(tlist)print(plist)print(type(plist)) # 正則表達(dá)式提取出的商品名稱和商品價(jià)格都是以列表形式存儲(chǔ)數(shù)據(jù)的

利用for循環(huán)，把每個(gè)商品的名稱和價(jià)格組成一個(gè)列表，然后把這寫列表再追加到一個(gè)大列表中：

goodlist = []for i in range(len(tlist)): title = eval(tlist[i].split(’:’)[1]) # eval()函數(shù)簡(jiǎn)單說就是用于去掉字符串的引號(hào) price = eval(plist[i].split(’:’)[1]) goodlist.append([title, price]) # 把每個(gè)商品的名稱和價(jià)格組成一個(gè)小列表，然后把所有商品組成的列表追加到一個(gè)大列表中 print(goodlist)

大概的思路就是這樣的。

def get_html(url): '''獲取源碼html''' try: r = requests.get(url=url, timeout=10) r.encoding = r.apparent_encoding return r.text except: print('獲取失敗')def get_data(html, goodlist): '''使用re庫(kù)解析商品名稱和價(jià)格 tlist:商品名稱列表 plist:商品價(jià)格列表''' tlist = re.findall(r’'raw_title':'.*?'’, html) plist = re.findall(r’'view_price':'[d.]*'’, html) for i in range(len(tlist)): title = eval(tlist[i].split(’:’)[1]) # eval()函數(shù)簡(jiǎn)單說就是用于去掉字符串的引號(hào) price = eval(plist[i].split(’:’)[1]) goodlist.append([title, price])def write_data(list, num): # with open(’E:/Crawler/case/taob2.txt’, ’a’) as data: # print(list, file=data) for i in range(num): # num控制把爬取到的商品寫進(jìn)多少到文本中 u = list[i] with open(’E:/Crawler/case/taob.txt’, ’a’) as data: print(u, file=data)def main(): goods = ’水杯’ depth = 3 # 定義爬取深度，即翻頁處理 start_url = ’https://s.taobao.com/search?q=’ + goods infoList = [] for i in range(depth): try: url = start_url + ’&s=’ + str(44 * i) # 因?yàn)樘詫氾@示每頁44個(gè)商品，第一頁i=0,一次遞增 html = get_html(url) get_data(html, infoList) except: continue write_data(infoList, len(infoList))if __name__ == ’__main__’: main()

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持好吧啦網(wǎng)。

淘寶 Python

上一條：python實(shí)現(xiàn)字符串和數(shù)字拼接下一條：基于Python爬取愛奇藝資源過程解析

相關(guān)文章：

1. Python函數(shù)參數(shù)中的*與**運(yùn)算符2. ThinkPHP6使用JWT+中間件實(shí)現(xiàn)Token驗(yàn)證實(shí)例詳解3. JSP出現(xiàn)中文亂碼問題解決方法詳解4. Python使用oslo.vmware管理ESXI虛擬機(jī)的示例參考5. Python如何解決secure_filename對(duì)中文不支持問題6. 使用python tkinter開發(fā)一個(gè)爬取B站直播彈幕工具的實(shí)現(xiàn)代碼7. ASP基礎(chǔ)入門第二篇(ASP基礎(chǔ)知識(shí))8. python 定義函數(shù) 返回值只取其中一個(gè)的實(shí)現(xiàn)9. Python 用NumPy創(chuàng)建二維數(shù)組的案例10. 不使用XMLHttpRequest對(duì)象實(shí)現(xiàn)Ajax效果的方法小結(jié)

排行榜

					
					在Vue中獲取自定義屬性方法:data-id的實(shí)例
python 定義函數(shù) 返回值只取其中一個(gè)的實(shí)現(xiàn)
sql server2005 jdbc解決自動(dòng)自動(dòng)增長(zhǎng)列統(tǒng)一處理問題紀(jì)實(shí)
不使用XMLHttpRequest對(duì)象實(shí)現(xiàn)Ajax效果的方法小結(jié)
Java調(diào)用新浪api通過Ip查詢地區(qū)
Python使用oslo.vmware管理ESXI虛擬機(jī)的示例參考
JSP出現(xiàn)中文亂碼問題解決方法詳解
ASP基礎(chǔ)入門第二篇(ASP基礎(chǔ)知識(shí))
IntelliJ IDEAx導(dǎo)出安卓（Android）apk文件圖文教程
Docker配置本地鏡像與容器的存儲(chǔ)位置
通過實(shí)例解析JavaScript常用排序算法