文章詳情頁

網頁爬蟲 - python 爬取網站并解析非json內容

瀏覽：135日期：2022-06-27 10:19:15

問題描述

小弟剛學會獲得json的內容，但今天爬的網站返回的并不是json內容并且會有一個隨機數的生成在每次請求鏈接的后面

不知道會不會影響我要爬的內容

需要獲得內容是下圖中間的內容

網頁爬蟲 - python 爬取網站并解析非json內容網站鏈接 http://www.szse.cn/main/discl...

我自己嘗試的代碼：

import requestsdir = ’/Users/S1Lence/Desktop/new_html/szse/許可類重組問詢函’headers = {’Host’: ’www.szse.cn’, ’Referer’: ’http://www.szse.cn/main/disclosure/jgxxgk/wxhj/’, ’User-Agent’: ’Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36’ }payload= {’ACTIONID’: ’7’, ’AJAX’: ’AJAX-TRUE’, ’CATALOGID’: ’main_wxhj’, ’TABKEY’: ’tab1’, ’selecthjlb’: ’許可類重組問詢函’, ’tab1PAGENO’: ’1’, ’tab1PAGECOUNT’: ’7’, ’tab1RECORDCOUNT’: ’63’, ’REPORT_ACTION’: ’navigate’}res = requests.post(’http://www.szse.cn/szseWeb/FrontControllere’, data=payload)print(res.text)

輸出的內容并不是我想要的求解應該怎么爬

問題解答

回答1：

把他的header信息拷過來用。。

回答2：

你post的url地址寫錯了，應該是

http://www.szse.cn/szseWeb/FrontController.szse

Python 編程

上一條：numpy - python [:,2][:,None]是什么意思下一條：（python)關于如何做到按win+R再輸入文件文件名就可以運行？

相關文章：

1. 就一臺服務器，mysql數據庫想實現自動備份，如何設計？2. mysql - thinkphp5 在MAC電腦本地正常，部署LINUX服務器之后，模型不存在3. 編輯管理員信息時，為什么沒有修改過的內容會為空？4. 求救一下，用新版的phpstudy，數據庫過段時間會消失是什么情況？5. javascript - 百度圖片切換圖片時url會改變，但無刷新，沒用hash，IE8也支持，請問是用了什么技術？6. 這是什么情況？？？7. node.js - win10如何安裝并使用babel？8. python - xpath中如何使用變量9. APP上傳到電腦服務器，出現數據上傳不完整的問題10. mysql服務無法啟動1067錯誤，誰知道正確的解決方法？

排行榜

					
					dockerfile - 我用docker build的時候出現下邊問題  麻煩幫我看一下
這是什么情況？？？
求救一下，用新版的phpstudy，數據庫過段時間會消失是什么情況？
百度地圖api - Android百度地圖SDK，MapView上層按鈕可見卻不可觸，怎么解決？
javascript - 百度圖片切換圖片時url會改變，但無刷新，沒用hash，IE8也支持，請問是用了什么技術？
android - recyclerview顯示錯亂
angular.js - angular 配置代理proxy.conf.json后報錯，頁面返回500internal server error？
用Html5怎么實現簡單選擇排序？
node.js - mongo TTL 數據過期不刪除
javascript -  為什么js代碼后面報錯，會導致前面的代碼執行不了，我確定后面的部分和前面的部分沒有邏輯上的關聯。
angular.js - gulp 壓縮后angular報錯問題
				

熱門標簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

網頁爬蟲 - python 爬取網站 并解析非json內容

網頁爬蟲 - python 爬取網站并解析非json內容