文章詳情頁

python爬蟲---requests庫的用法詳解

瀏覽：76日期：2022-07-09 15:56:07

requests是python實現的簡單易用的HTTP庫，使用起來比urllib簡潔很多

因為是第三方庫，所以使用前需要cmd安裝

pip install requests

安裝完成后import一下，正常則說明可以開始使用了。

基本用法：

requests.get()用于請求目標網站，類型是一個HTTPresponse類型

import requests

response = requests.get(’http://www.baidu.com’)print(response.status_code) # 打印狀態碼print(response.url) # 打印請求urlprint(response.headers) # 打印頭信息print(response.cookies) # 打印cookie信息print(response.text) #以文本形式打印網頁源碼print(response.content) #以字節流形式打印

運行結果：

狀態碼：200

url：www.baidu.com

headers信息

python爬蟲---requests庫的用法詳解

各種請求方式：

import requestsrequests.get(’http://httpbin.org/get’)requests.post(’http://httpbin.org/post’)requests.put(’http://httpbin.org/put’)requests.delete(’http://httpbin.org/delete’)requests.head(’http://httpbin.org/get’)requests.options(’http://httpbin.org/get’)

基本的get請求

import requestsresponse = requests.get(’http://httpbin.org/get’)print(response.text)

結果

python爬蟲---requests庫的用法詳解

帶參數的GET請求：

第一種直接將參數放在url內

import requestsresponse = requests.get(http://httpbin.org/get?name=gemey&age=22)print(response.text)

結果

python爬蟲---requests庫的用法詳解

另一種先將參數填寫在dict中，發起請求時params參數指定為dict

import requestsdata = { ’name’: ’tom’, ’age’: 20}response = requests.get(’http://httpbin.org/get’, params=data)print(response.text)

結果同上

解析json

import requestsresponse = requests.get(’http://httpbin.org/get’)print(response.text)print(response.json()) #response.json()方法同json.loads(response.text)print(type(response.json()))

結果

python爬蟲---requests庫的用法詳解

簡單保存一個二進制文件

二進制內容為response.content

import requestsresponse = requests.get(’http://img.ivsky.com/img/tupian/pre/201708/30/kekeersitao-002.jpg’)b = response.contentwith open(’F://fengjing.jpg’,’wb’) as f: f.write(b)

為你的請求添加頭信息

import requestsheads = {}heads[’User-Agent’] = ’Mozilla/5.0 ’ ’(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ’ ’(KHTML, like Gecko) Version/5.1 Safari/534.50’ response = requests.get(’http://www.baidu.com’,headers=headers)

使用代理

同添加headers方法，代理參數也要是一個dict

這里使用requests庫爬取了IP代理網站的IP與端口和類型

因為是免費的，使用的代理地址很快就失效了。

import requestsimport redef get_html(url): proxy = { ’http’: ’120.25.253.234:812’, ’https’ ’163.125.222.244:8123’ } heads = {} heads[’User-Agent’] = ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0’ req = requests.get(url, headers=heads,proxies=proxy) html = req.text return htmldef get_ipport(html): regex = r’<td data-title='IP'>(.+)</td>’ iplist = re.findall(regex, html) regex2 = ’<td data-title='PORT'>(.+)</td>’ portlist = re.findall(regex2, html) regex3 = r’<td data-title='類型'>(.+)</td>’ typelist = re.findall(regex3, html) sumray = [] for i in iplist: for p in portlist: for t in typelist:pass pass a = t+’,’+i + ’:’ + p sumray.append(a) print(’高匿代理’) print(sumray)if __name__ == ’__main__’: url = ’http://www.kuaidaili.com/free/’ get_ipport(get_html(url))

結果：

python爬蟲---requests庫的用法詳解

基本POST請求：

import requestsdata = {’name’:’tom’,’age’:’22’}response = requests.post(’http://httpbin.org/post’, data=data)

python爬蟲---requests庫的用法詳解

獲取cookie

#獲取cookieimport requestsresponse = requests.get(’http://www.baidu.com’)print(response.cookies)print(type(response.cookies))for k,v in response.cookies.items(): print(k+’:’+v)

結果：

python爬蟲---requests庫的用法詳解

會話維持

import requestssession = requests.Session()session.get(’http://httpbin.org/cookies/set/number/12345’)response = session.get(’http://httpbin.org/cookies’)print(response.text)

結果：

python爬蟲---requests庫的用法詳解

證書驗證設置

import requestsfrom requests.packages import urllib3urllib3.disable_warnings() #從urllib3中消除警告response = requests.get(’https://www.12306.cn’,verify=False) #證書驗證設為FALSEprint(response.status_code)打印結果：200

超時異常捕獲

import requestsfrom requests.exceptions import ReadTimeouttry: res = requests.get(’http://httpbin.org’, timeout=0.1) print(res.status_code)except ReadTimeout: print(timeout)

異常處理

在你不確定會發生什么錯誤時，盡量使用try...except來捕獲異常

所有的requests exception：

Exceptions

import requestsfrom requests.exceptions import ReadTimeout,HTTPError,RequestExceptiontry: response = requests.get(’http://www.baidu.com’,timeout=0.5) print(response.status_code)except ReadTimeout: print(’timeout’)except HTTPError: print(’httperror’)except RequestException: print(’reqerror’)

25行代碼帶你爬取4399小游戲數據

import requestsimport parselimport csvf = open(’4399游戲.csv’, mode=’a’, encoding=’utf-8-sig’, newline=’’)csv_writer = csv.DictWriter(f, fieldnames=[’游戲地址’, ’游戲名字’])csv_writer.writeheader()for page in range(1, 106): url = ’http://www.4399.com/flash_fl/5_{}.htm’.format(page) headers = { ’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36’ } response = requests.get(url=url, headers=headers) response.encoding = response.apparent_encoding selector = parsel.Selector(response.text) lis = selector.css(’#classic li’) for li in lis: dit ={} data_url = li.css(’a::attr(href)’).get() new_url = ’http://www.4399.com’ + data_url.replace(’http://’, ’/’) dit[’游戲地址’] = new_url title = li.css(’img::attr(alt)’).get() dit[’游戲名字’] = title print(new_url, title) csv_writer.writerow(dit)f.close()

到此這篇關于python爬蟲---requests庫的用法詳解的文章就介紹到這了,更多相關python requests庫內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python實現簡單貪吃蛇游戲下一條：python向企業微信發送文字和圖片消息的示例

相關文章：

1. SSM框架JSP使用Layui實現layer彈出層效果2. IntelliJ IDEA導入jar包的方法3. 刪除docker里建立容器的操作方法4. IntelliJ IDEA導出項目的方法5. PHP下對緩沖區的控制6. 如果你恨一個程序員，忽悠他去做iOS開發7. 在Django中預防CSRF攻擊的操作8. java使用xfire搭建webservice服務的過程詳解9. IDEA調試源碼小技巧之辨別抽象類或接口多種實現類的正確路徑10. Jquery使用原生AJAX方法請求數據

排行榜

					
					IntelliJ IDEA導入jar包的方法
SSM框架JSP使用Layui實現layer彈出層效果
刪除docker里建立容器的操作方法
IntelliJ IDEA導出項目的方法
如果你恨一個程序員，忽悠他去做iOS開發
PHP下對緩沖區的控制
Jquery使用原生AJAX方法請求數據
Django實現將views.py中的數據傳遞到前端html頁面,并展示
在Django中預防CSRF攻擊的操作
JS如何在數組指定位置插入元素
java使用xfire搭建webservice服務的過程詳解