文章詳情頁

Python爬取梨視頻的示例

瀏覽：76日期：2022-06-28 18:36:07

爬取流程（美食區最熱標簽下的三個視頻）在首頁獲取視頻的編號和名字拼接成正確的url 保存視頻思路1.從網頁中獲取視頻的url

Python爬取梨視頻的示例

發現視頻的url在id為“JprismPlayer”的div標簽下的video標簽src屬性中，xpath解析網頁

video_url = tree.xpath('//div[@id=’JprismPlayer’]/video/@src')

但得到的返回值為空，也就是說這個video標簽在原網頁中并不存在，很可能是動態加載出來的

2. 從動態請求獲取視頻的url

Python爬取梨視頻的示例

果然在動態請求中發現了包含視頻url的json數據

Python爬取梨視頻的示例

可是發起請求后拿到的json數據卻和抓包工具中看到的不一樣，試著在請求頭中加入Referer參數，查看referer可以發現，它最后video_后面跟的是首頁中視頻的編號

Python爬取梨視頻的示例

{'resultCode':'1','resultMsg':'success', 'reqId':'fd1c910d-f49a-431a-b9a4-9c193c3c1983','systemTime': '1611666178518','videoInfo':{'playSta':'1','video_image':'https://image1.pearvideo.com/cont/20210125/11107897-184717-1.png','videos':{'hdUrl':'','hdflvUrl':'','sdUrl':'','sdflvUrl':'','srcUrl':'https://video.pearvideo.com/mp4/third/20210125/1611666178518-11107897-181816-hd.mp4'}}}

在headers中加入Referer后順利拿到json數據

Python爬取梨視頻的示例

可向json數據中的視頻url發起請求拿到的卻是404頁面

3. 拼接正確的url

這里花了很長時間去想哪里有問題，把前面的步驟理了很多遍才發現，其實動態請求返回的json數據中的視頻url和主頁video標簽中的視頻url根本不一致

Python爬取梨視頻的示例

首頁中加載出來的視頻鏈接是正確的，可以順利的拿到視頻，而json數據中的鏈接則會返回404。把他們進行對比，可以看到他們前半部分是一樣的，但到了紅線框住的地方就不一樣了。正確的url是 cont-視頻id-而json數據中的url這個部分是一串數字那只要把這一串數字改成 cont-視頻id- 的形式就能獲得正確的視頻url了

代碼

# 爬取梨視頻import requestsfrom lxml import etreeimport osfrom multiprocessing import Pool# 梨視頻首頁urlurl = 'https://www.pearvideo.com/category_6'headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36’ }# 獲取響應，并用etree解析response = requests.get(url=url, headers=headers).texttree = etree.HTML(response)# 拿到視頻的名字和視頻號video_id_list = tree.xpath('//ul[@class=’listvideo-list clearfix’]/li[@class=’categoryem ’]//a[@class=’vervideo-lilink actplay’]/@href')video_name_list = tree.xpath('//ul[@class=’listvideo-list clearfix’]/li[@class=’categoryem ’]//a/div[@class=’vervideo-title’]/text()')data_list = [{'name': video_name_list[i], 'idNum': video_id_list[i][6:]} for i in range(len(video_name_list))]# 創建一個存放視頻的文件夾if not os.path.exists('./videos'): os.mkdir('./videos')# 獲取視頻的函數def down_video(data): name = data[’name’] idNum = data[’idNum’] # 獲取視頻需要的headers，注意這里的Referer要和視頻的id匹配 headers = { ’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36’, ’Referer’: f’https://www.pearvideo.com/video_{idNum}’ } # 獲取接近真正視頻url的url，這里的id也需要和視頻id匹配才行 url = f’https://www.pearvideo.com/videoStatus.jsp?contId={idNum}’ # 得到包含視頻地址json響應數據 response = requests.get(url=url, headers=headers).json() video_url = response['videoInfo']['videos']['srcUrl'] # 將視頻地址中的數字替換成 cont-視頻編號拿到真正的視頻地址 video_url = video_url.replace(video_url.split('/')[-1].split('-')[0], 'cont-' + idNum) # 拿到視頻并保存 video = requests.get(url=video_url, headers=headers).content with open(f'./videos/{name}.mp4', 'wb') as f: print(f'正在下載視頻 {name} ...') f.write(video) print(f'視頻 {name} 下載完成！')if __name__ == ’__main__’: # 創建進程池并使用 pool = Pool(3) pool.map(down_video, data_list) pool.close() pool.join()總結

其實最難的地方是獲取正確的視頻url，中間過程比較繞。只要找到這個地址，再加上從首頁拿到的視頻id就可以順利拿到視頻了。如果要爬取整個首頁視頻只需要重新設置xpath路徑就可以了。

以上就是Python爬取梨視頻的示例的詳細內容，更多關于Python爬取梨視頻的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：如何用python開發Zeroc Ice應用下一條：python使用numpy中的size()函數實例用法詳解

相關文章：

1. 用xslt+css讓RSS顯示的跟網頁一樣漂亮2. ASP.NET MVC把數據庫中枚舉項的數字轉換成文字3. 《CSS3實戰》筆記--漸變設計（一)4. 移動端HTML5實現拍照功能的兩種方法5. 測試模式 - XSL教程 - 56. ASP.NET Core自定義中間件的方式詳解7. html5手機觸屏touch事件介紹8. CSS3實現動態翻牌效果仿百度貼吧3D翻牌一次動畫特效9. 讓chatgpt將html中的圖片轉為base64方法示例10. 教你JS更簡單的獲取表單中數據(formdata)

排行榜

					
					Python生成六萬個隨機,唯一的8位數字和數字組成的隨機字符串實例
讓chatgpt將html中的圖片轉為base64方法示例
php strncmp函數原型源碼分析
java設計模式之Interpreter
html5手機觸屏touch事件介紹
idea不能自動補全yml配置文件的原因分析
《CSS3實戰》筆記--漸變設計（一)
ASP.NET Core自定義中間件的方式詳解
IntelliJ IDEA 2020.2.3永久破解激活教程(親測有效)
移動端HTML5實現拍照功能的兩種方法
教你JS更簡單的獲取表單中數據(formdata)