python - 如何獲取新浪微博某個(gè)用戶的轉(zhuǎn)發(fā)微博數(shù)和原創(chuàng)微博數(shù)
問題描述
1.問題描述我正在做微博水軍相關(guān)分析,需要獲取微博用戶的轉(zhuǎn)發(fā)微博比和原創(chuàng)微博比,即用戶轉(zhuǎn)發(fā)他人微博數(shù)/所有微博數(shù)。
查閱文獻(xiàn)發(fā)現(xiàn)很多人的論文中有這一類數(shù)據(jù),但不知道怎么獲得的。
我發(fā)現(xiàn)手機(jī)端和pc版本的微博,都可以利用篩選,查找一個(gè)人的轉(zhuǎn)發(fā)微博,但是當(dāng)我在手機(jī)版這樣篩選時(shí)返回結(jié)果為空。
而電腦版得到的結(jié)果,轉(zhuǎn)發(fā)微博數(shù)和原創(chuàng)微博數(shù)的和明顯遠(yuǎn)小于全部微博數(shù)。
2.需要的幫助(1)新浪微博的搜索引擎是不是有問題(2)能否通過某種搜索方式得到一個(gè)人的原創(chuàng)微博數(shù),和轉(zhuǎn)發(fā)微博數(shù),API與爬蟲均可。(不是用全部微博數(shù)-原創(chuàng)微博數(shù),因?yàn)檫€包含不可見微博)。
問題解答
回答1:我開源了一個(gè)分布式的微博爬蟲,該項(xiàng)目最初是做關(guān)于熱門微博轉(zhuǎn)發(fā)的分析(和我本身工作相關(guān))。后來經(jīng)過我多次修改,加了很多新的功能,并把它開源出來了。關(guān)于第一個(gè)問題,微博的搜索引擎是否有問題,我覺得有可能是它刻意為之,因?yàn)楸热缦裼脩絷P(guān)注和用戶粉絲,微博系統(tǒng)就只會(huì)限制返回5頁數(shù)據(jù),像按地方搜索用戶,也只會(huì)返回幾萬條數(shù)據(jù)。也有可能是由于有些微博你沒權(quán)限查看,而它搜出來的結(jié)果是你有權(quán)限查看的。你說的第二個(gè)問題,不可見微博肯定是拿不到的,爬蟲只能拿到普通用戶能看見的微博數(shù)據(jù),這個(gè)我也是在代碼中實(shí)現(xiàn)了。因?yàn)樗接形⒉┑脑挘隙ㄎ⒉┫到y(tǒng)不會(huì)展示的,API應(yīng)該也拿不到。因?yàn)槲⒉┻@么大的公司,還是得保護(hù)一下用戶隱私吧。移動(dòng)端你通過搜索接口搜索返回為空的原因,其實(shí)可能是因?yàn)槲⒉┛桃膺@么做的。你可以仔細(xì)調(diào)研一下,會(huì)發(fā)現(xiàn)PC端的信息比移動(dòng)端的微博信息豐富得多。所以如果要做爬蟲,且要求數(shù)據(jù)全面,肯定得從PC端入手。
相關(guān)文章:
1. javascript - 循環(huán)嵌套多個(gè)promise應(yīng)該如何實(shí)現(xiàn)?2. mysql優(yōu)化 - 關(guān)于mysql分區(qū)3. css3 - rem布局下,用戶瀏覽器的最小字號(hào)是12px怎么辦?4. javascript - ionic2 input autofocus 電腦成功,iOS手機(jī)鍵盤不彈出5. html5 - 如何實(shí)現(xiàn)帶陰影的不規(guī)則容器?6. objective-c - iOS開發(fā)支付寶和微信支付完成為什么跳轉(zhuǎn)到了之前開發(fā)的一個(gè)app?7. 前端 - IE9 css兼容問題8. 請(qǐng)教各位大佬,瀏覽器點(diǎn) 提交實(shí)例為什么沒有反應(yīng)9. vue.js - vue 打包后 nginx 服務(wù)端API請(qǐng)求跨域問題無法解決。10. css - 移動(dòng)端字體設(shè)置問題
