文章詳情頁
python - 請教如何爬取簡書某一時間段發(fā)帖。
瀏覽:125日期:2022-07-11 10:45:01
問題描述
我想爬取簡書在某一時間段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的思路如下:
百度
利用百度的 site 語法
限定日期
觀察大約有 70 個帖子
google 的 site 語法
限定日期
觀察大約有 120 個帖子
實現(xiàn):用 Python 直接請求搜索的結(jié)果,然后把得到的網(wǎng)址重定向一下得到真正的簡書網(wǎng)址,然后對真正的網(wǎng)址進行請求
問題
用這種方法得到的結(jié)果是否靠譜?請問有更靠譜的方法嗎?
用 Google 還是用百度呢?
問題解答
回答1:為了全面,你可以把主流的搜索引擎接口都拿來用,不一定要限制在某個搜索引擎接口上。我們有隊友搜索某些話題就是這么干的,因為有的網(wǎng)站站內(nèi)沒提供滿足需求的搜索方式,這個時候也只有借助搜索引擎了。不過通過搜索引擎搜索的方式信息可能不全面,robots協(xié)議規(guī)定了不能搜索的,搜索引擎不會收錄
相關(guān)文章:
1. javascript - 奇怪的Symbol的問題2. angular.js - angular ng-class里面的引號問題3. docker - 如何修改運行中容器的配置4. javascript - 有沒有什么好的圖片懶加載的插件,需要包含監(jiān)聽頁面滾動高度,然后再加載的功能5. javascript - history.replaceState()無法改變query參數(shù)6. 網(wǎng)頁爬蟲 - 用Python3的requests庫模擬登陸B(tài)ilibili總是提示驗證碼錯誤怎么辦?7. mysql無法添加外鍵8. matplotlib - python函數(shù)的問題9. javascript - vue過渡效果 css過渡 類名的先后順序10. javascript - es6將類數(shù)組轉(zhuǎn)化成數(shù)組的問題
排行榜

熱門標簽