文章詳情頁

python - 如何爬取登錄后的socket連接

瀏覽：82日期：2022-08-13 11:11:43

問題描述

需要爬取一個登錄以后的socket連接,這個socket會不定期的傳數據到網頁上,然后我目前只能通過不斷刷新網頁去完成,有沒有什么好的辦法可以去爬取需要網頁登錄后的socket呢?

===繼續描述:

已實現的部分

模擬登錄 (selenium模擬登錄)

偽造UA,刷新cookies,刷新sessionID(通過不停的登錄登出換cookie,定時結束webdriver再重啟來刷新sessionID)

通過Xpath 來獲取頁面的數據(lxml)

想要的結果(未實現)

他的socket數據是這樣傳給瀏覽器的,我就是想用python搞個socket client接進這個socket,然后等服務器推給我數據. python - 如何爬取登錄后的socket連接

抽象化的問題

總的來說,爬一個時間點的數據并不困難,但是對于長連接的持續爬蟲,持續監控,響應式監控我在網上找不到好的辦法,如果是設置定時任務去爬蟲,則當采樣周期過小的時候(小于1秒),則運算等成本過高且容易被封掉,有沒有什么好的辦法呢

問題解答

回答1：

HTTP是無狀態的，所以你的登陸以后狀態是通過傳給服務器一個或多個特殊值（一般在報文頭的cookie字段里）來確定的。抓一下HTTP包，然后模擬時帶上這些特殊值就OK了。

更新內容：看到它Status Code了，這應該是將連接換成websocket了，那么這個頁面一定是對方來提供的了。你可以看一下頁面的源碼，應該會有var ws = new WebSocket('ws://ip:3000'); 之類的內容。看一下對方客戶端的要求，然后改寫ws.onmessage回調函數，這個函數的話內容就任你拿捏了，你可以用它來判斷返回了新內容或者再去請求另一個服務器來處理這些新內容。你可以看一下這篇文章網頁實時聊天之PHP實現websocket 的客戶端部分，試著修改來實現你的需求。

回答2：

找個websockt客戶端庫連就好了啊

Python 編程

上一條：Python Django xadmin 可以對數據進行簡單的邏輯處理嘛？下一條：python - 我寫的Xpath 為什么爬取不到內容

相關文章：

1. node.js - mysql如何通過knex查詢今天和七天內的匯總數據2. mysql 插入數值到特定的列一直失敗3. 360瀏覽器與IE瀏覽器有何區別？？？4. Python從URL中提取域名5. mysql - 百萬行的表中是否盡量避免使用update等sql語句？6. python - 在使用Pycharm時經常看到如下的樣式，小括號里紅色的部分是什么意思呢？7. javascript - 新浪微博網頁版的字數限制是怎么做的8. 怎么在網頁中設置圖片進行左右滑動9. javascript - 豆瓣的這個自適應是怎么做的？10. javascript - 用jsonp抓取qq音樂總是說回調函數沒有定義

排行榜

					
					android - MIUI8短信權限問題
angular.js - angularjs ng-repeat 不能刷新
代碼如下，java用BigDecimal四舍五入怎么還有問題呀？哪種方式是完全沒有問題的？
javascript - 如何讓手機端的代碼只能在手機端執行，在pc端的模擬器里面也不執行
android - 安卓使用webview播放騰訊、優酷視頻的方法
javascript - vue如何偵聽change事件實現雙向綁定的？
android-studio - Androidstudio運行時報錯
java - Spring使用@Autowired失效但是getBean()可以執行成功
微信開放平臺 - android 微信支付后點完成按鈕，后回調打開第三方頁面，屏幕閃動，求解決方法
angular.js - angularjs動態增加DOM
java - 所有類都是由Object類的記載器加載的嗎？
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python - 如何爬取登錄后的socket連接