python - 請(qǐng)教如何爬取簡(jiǎn)書(shū)某一時(shí)間段發(fā)帖。
問(wèn)題描述
我想爬取簡(jiǎn)書(shū)在某一時(shí)間段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的思路如下:
百度
利用百度的 site 語(yǔ)法
限定日期
觀察大約有 70 個(gè)帖子
google 的 site 語(yǔ)法
限定日期
觀察大約有 120 個(gè)帖子
實(shí)現(xiàn):用 Python 直接請(qǐng)求搜索的結(jié)果,然后把得到的網(wǎng)址重定向一下得到真正的簡(jiǎn)書(shū)網(wǎng)址,然后對(duì)真正的網(wǎng)址進(jìn)行請(qǐng)求
問(wèn)題
用這種方法得到的結(jié)果是否靠譜?請(qǐng)問(wèn)有更靠譜的方法嗎?
用 Google 還是用百度呢?
問(wèn)題解答
回答1:為了全面,你可以把主流的搜索引擎接口都拿來(lái)用,不一定要限制在某個(gè)搜索引擎接口上。我們有隊(duì)友搜索某些話題就是這么干的,因?yàn)橛械木W(wǎng)站站內(nèi)沒(méi)提供滿足需求的搜索方式,這個(gè)時(shí)候也只有借助搜索引擎了。不過(guò)通過(guò)搜索引擎搜索的方式信息可能不全面,robots協(xié)議規(guī)定了不能搜索的,搜索引擎不會(huì)收錄
相關(guān)文章:
1. python - 啟動(dòng)Eric6時(shí)報(bào)錯(cuò):’qscintilla_zh_CN’ could not be loaded2. php - 微信開(kāi)發(fā)驗(yàn)證服務(wù)器有效性3. MySQL中的enum類(lèi)型有什么優(yōu)點(diǎn)?4. android下css3動(dòng)畫(huà)非常卡,GPU也不差啊5. mysql - 記得以前在哪里看過(guò)一個(gè)估算時(shí)間的網(wǎng)站6. css3 - 純css實(shí)現(xiàn)點(diǎn)擊特效7. javascript - 關(guān)于<a>元素與<input>元素的JS事件運(yùn)行問(wèn)題8. javascript - vue 怎么渲染自定義組件9. python - 有什么好的可以收集貨幣基金的資源?10. html - vue項(xiàng)目中用到了elementUI問(wèn)題
