国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

python - 爬蟲模擬登錄后,爬取csdn后臺文章列表遇到的問題

瀏覽:116日期:2022-07-17 10:39:13

問題描述

爬蟲確實已經登錄進去了,因為我爬取個人信息是可以抓出來的,但是下圖的這個網址抓不出來:

網址是:http://write.blog.csdn.net/postlist,就是你的csdn后臺。

我貼下代碼吧,py2.7的

#!/usr/bin/env python# -*- coding: utf-8 -*-from bs4 import BeautifulSoupimport requestsclass CSDN(object): def __init__(self, headers):self.session = requests.Session()self.headers = headers def get_webflow(self):url = ’http://passport.csdn.net/account/login’response = self.session.get(url=url, headers=self.headers)soup = BeautifulSoup(response.text, ’html.parser’)lt = soup.find(’input’, {’name’: ’lt’})[’value’]execution = soup.find(’input’, {’name’: ’execution’})[’value’]soup.clear()return (lt, execution) def login(self, account, password):self.username = accountself.password = passwordlt, execution = self.get_webflow()data = { ’username’: account, ’password’: password, ’lt’: lt, ’execution’: execution, ’_eventId’: ’submit’}url = ’http://passport.csdn.net/account/login’response = self.session.post(url=url, headers=self.headers, data=data)if (response.status_code == 200): print(’正常’)else: print(’異常’) def func(self):headers1={ ’Host’:’write.blog.csdn.net’, ’Upgrade-Insecure-Requests’:’1’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36’}response=self.session.get(url=’http://write.blog.csdn.net/postlist’,headers=headers1,allow_redirects=False)print response.textif __name__ == ’__main__’: headers = {’Host’: ’passport.csdn.net’,’Origin’: ’http://passport.csdn.net’,’Referer’:’http://passport.csdn.net/account/login’,’Upgrade-Insecure-Requests’:’1’,’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36’, } csdn = CSDN(headers=headers) account = ’’ password = ’’ csdn.login(account=account, password=password) csdn.func()

上面的代碼輸出是

正常<html><head><title>Object moved</title></head><body><h2>Object moved to <a >here</a>.</h2></body></html>

問題解答

回答1:

因為這個地址返回的是一個302跳轉,你要根據返回header的Location繼續請求,再分析返回的內容繼續處理,瀏覽器幫你做了這些302跳轉和執行返回的js等內容,手工抓取就需要自己處理.

回答2:

直接用cookie即可

標簽: Python 編程
主站蜘蛛池模板: 色射网| 日本韩国一区 | 成人人免费夜夜视频观看 | 一级一片免费播放 | 一级毛片黄片 | 玖玖精品 | 国产欧美va欧美va香蕉在线 | 天干天干天啪啪夜爽爽色 | 国产三级三级三级三级 | 国产玖玖在线 | 狠狠色综合久久婷婷 | 成年人在线观看视频网站 | 国产99视频精品免费视频7 | 日本亚洲成高清一区二区三区 | 在线观看国产 | 中文字幕在线观看网址 | 99久久精品国产自免费 | 欧美性毛片大片 | 尤物蜜芽福利国产污在线观看 | 亚洲日本aⅴ片在线观看香蕉 | 免费看特级毛片 | 男女乱淫视频 | 在线中文字幕精品第5页 | 一区二区三区免费在线视频 | 免费一级性片 | 日本中文字幕不卡免费视频 | 最新亚洲精品国自产在线观看 | 日韩精品午夜视频一区二区三区 | 亚洲午夜在线观看 | 国产精品自拍在线观看 | 日韩精品一区二区三区视频网 | 亚洲国产成人久久一区二区三区 | 国产初高中生粉嫩无套第一次 | 三级理论手机在线观看视频 | 日韩区在线观看 | 免费观看成人www精品视频在线 | 在线成人免费看大片 | 亚洲日本视频在线 | 久久成年视频 | 国产精品高清在线观看地址 | 亚洲 欧美 丝袜 |