python - 如何爬取跳轉網站的數(shù)據
問題描述
目前在學習一些爬蟲的知識,對于一些復雜的網站使用selenium進行爬取。碰到一個問題,我需要爬取的工單網站(不知道密碼)需要先通過登錄一個鑒權系統(tǒng),然后鑒權系統(tǒng)頁面點擊其中的工單系統(tǒng)連接,就會自動免登錄跳轉到工單系統(tǒng)網站,這種系統(tǒng)的數(shù)據我該如何使用爬蟲進行抓取?以下是鑒權系統(tǒng)selenium拿到關于工單系統(tǒng)的html
<a href='http://www.cgvv.com.cn/link-test001' target='_blank' rel='link-test001' data='1' datasrc='工單系統(tǒng)|||/files/link/test001.gif|||new|||/link-test001'> <img src='http://www.cgvv.com.cn/files/link/test001.gif' alt='工單系統(tǒng)' align='absmiddle'><span>工單系統(tǒng)</span></a>
問題解答
回答1:用firefox的擴展selenium ide錄制一遍操作。然后導出為python文件。改改運行就可以了。
建議你去讀讀蟲師寫的書。
回答2:例如使用requests庫作為爬蟲的話,先創(chuàng)建session(),A登錄,B是跳轉的頁面即可。
T=requests.session()A=T.post(url=url,data=data)B=T.get(url=url)
創(chuàng)建的T就代表存儲的cookie,會一直保留
相關文章:
1. javascript - 關于定時器 與 防止連續(xù)點擊 問題2. javascript - 求助關于js正則問題3. objective-c - ios百度地圖定位問題4. javascript - 求助這種功能有什么好點的插件?5. javascript - js 有什么優(yōu)雅的辦法實現(xiàn)在同時打開的兩個標簽頁間相互通信?6. 為何 localStorage、sessionStorage 屬于html5的范疇,但是為何 IE8卻支持?7. html5 - rudy編譯sass的時候有中文報錯8. html - css 如何添加這種邊框?9. javascript - node.js服務端渲染解疑10. 微信開放平臺 - Android調用微信分享不顯示
