文章詳情頁

Python selenium爬取微信公眾號文章代碼詳解

瀏覽：51日期：2022-07-14 11:48:06

參照資料：selenium webdriver添加cookie: https://www.jb51.net/article/193102.html

需求：

想閱讀微信公眾號歷史文章，但是每次找回看得地方不方便。

思路：

1、使用selenium打開微信公眾號歷史文章，并滾動刷新到最底部，獲取到所有歷史文章urls。

2、對urls進行遍歷訪問，并進行下載到本地。

實現

1、打開微信客戶端，點擊某個微信公眾號->進入公眾號->打開歷史文章鏈接（使用瀏覽器打開），并通過開發者工具獲取到cookies，保存為excel。

Python selenium爬取微信公眾號文章代碼詳解

2、啟動webdriver，并添加相應cookies。

browser = webdriver.Chrome()wait = WebDriverWait(browser,10)# 隨便訪問一個地址，然后才能設置cookiesbrowser.get(’https://httpbin.org/get’)# 添加cookies,df為保存的excel cookiesfor i in range(len(df)): cookie_dict = { 'domain': df.loc[i,’DomaiN’], ’name’: df.loc[i,’Name’], ’value’: str(df.loc[i,’Value’]), 'expires': df.loc[i,'Expires/Max-Age'], ’path’: ’/’,} browser.add_cookie(cookie_dict)browser.get(weixin_url)

3、控制瀏覽器下移動

觀察page_source，可以發現，文章到最底部的判斷是。

<div id='js_nomore'> <div class='tips_wrp'> <span style='display: none;'>已無更多</span> <span style='display: none;'>關注公眾帳號，接收更多消息</span> </div> </div>

使用driver控制JS。

%%time# 通過判斷已無更多的style,來判斷是否到最底部，最終執行到最底部no_more_msg_style = ’display: none;’while True: wait.until(EC.presence_of_element_located((By.XPATH,’//span[@ and text()='已無更多']’))) no_more= browser.find_element_by_xpath(’//span[@ and text()='已無更多']’) now_style = no_more.get_attribute(’style’) if str(now_style).find(no_more_msg_style) == -1: # 說明已經加載完了 break else: # 停頓一會，等待瀏覽器加載 time.sleep(5) # 通過JS，執行到最底部 browser.execute_script(’window.scrollTo(0,document.body.scrollHeight)’)

4、關鍵信息獲取。

根據html,分析得出文章url處在<div msgid='1000000026'>中。

<div msgid='1000000026'> <div class='weui_msg_card_hd'>2017年1月13日</div> <div class='weui_msg_card_bd'>   <div hrefs='http://mp.weixin.qq.com/s?__biz=MzI5MDQ4NzU5MA==&mid=2247483748&idx=1&sn=e804e638484794181a27c094f81be8e1&chksm=ec1e6d2ddb69e43bd3e1f554c2d0cedb37f099252f122cee1ac5052b589b56f428b2c304de8e&scene=38#wechat_redirect' data-t='0'> <span data-s='640' hrefs='http://mp.weixin.qq.com/s?__biz=MzI5MDQ4NzU5MA==&mid=2247483748&idx=1&sn=e804e638484794181a27c094f81be8e1&chksm=ec1e6d2ddb69e43bd3e1f554c2d0cedb37f099252f122cee1ac5052b589b56f428b2c304de8e&scene=38#wechat_redirect' data-type='APPMSG'> </span> <div data-type='APPMSG'><h4 hrefs='http://mp.weixin.qq.com/s?__biz=MzI5MDQ4NzU5MA==&mid=2247483748&idx=1&sn=e804e638484794181a27c094f81be8e1&chksm=ec1e6d2ddb69e43bd3e1f554c2d0cedb37f099252f122cee1ac5052b589b56f428b2c304de8e&scene=38#wechat_redirect'> 承認自己是難民有什么錯</h4><p class='weui_media_desc'>枷鎖已經足夠沉重，謝絕道德綁架</p><p class='weui_media_extra_info'>2017年1月13日</p> </div> </div> </div> </div>

文章類型主要分為，

有無原創進行劃分。

最終實現：

%%timeresult = []errlist = []# 先得到其中一個el_divs = browser.find_elements_by_xpath(’//div[@class='weui_msg_card_list']/div[@class='weui_msg_card js_card']’)i = 0for div in el_divs: date = title = url = yuanchuang = ’’ try: date = div.find_element_by_xpath(’.//div[@class='weui_msg_card_hd']’).get_attribute(’innerHTML’) el_content = div.find_element_by_xpath(’.//div[@class='weui_media_bd js_media']’) if el_content.get_attribute(’data-type’) == ’APPMSG’: el = el_content.find_element_by_xpath(’./h4[@class='weui_media_title']’) title = el.text url = el.get_attribute(’hrefs’) xb = el_content.find_element_by_xpath(’./p[@class='weui_media_extra_info']’).text yuanchuang = ’原創’ if xb.find(’原創’) != -1 else ’’ elif el_content.get_attribute(’data-type’) == ’TEXT’: title = ’隨文’ url = el_content.find_element_by_xpath(’./div’).text yuanchuang = ’原創’ else: # 其他未能識別的類型 errlist.append([i,div.get_attribute(’innerHTML’)]) except NoSuchElementException: errlist.append([i,div.get_attribute(’innerHTML’)]) print(str(i),’:’,date,title,url,yuanchuang) result.append([date,title,yuanchuang,url]) i = i + 1

5、將得到url保存到excel

dfout = pd.DataFrame(result, columns=[’日期’, ’標題’, ’原創’, ’地址’]) with pd.ExcelWriter(savename) as writer:dfout.to_excel(writer,index=False,sheet_name = ’Sheet1’)

最終保存形式

Python selenium爬取微信公眾號文章代碼詳解

6、在遍歷最后的鏈接地址，逐個requets保存，即可得到。組建成菜單形式的文章，可參考

記一次 excel vba 參考手冊爬蟲實戰，不必要的一次爬蟲。：htthttps://www.jb51.net/article/193107.htm

遇到的坑：

1、find_element_by_xpath 需要配上 NoSuchElementException 使用，否則遇到未找到的節點就會出錯，最初find_elements_by_xpath 來防止找不到相關節點，結果發現，執行速度異常的慢，需要查找原因。

2、cookies使用的時候是人為獲取，如果太長時間不用，需要重新獲取?？梢钥紤]結合pyautogui來控制weixin客戶端來進行獲取。？

3、構建的時候，最后分布試行，最初的文章類型沒有做好判斷，結果執行時間很久。做好異常捕獲，再逐步分析錯誤的節點問題。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

微信 Python

上一條：Python selenium如何打包靜態網頁并下載下一條：基于python requests selenium爬取excel vba過程解析

相關文章：

1. JSP servlet實現文件上傳下載和刪除2. 使用XSL將XML文檔中的CDATA注釋輸出為HTML文本3. ASP常用日期格式化函數 FormatDate()4. ASP.NET Core實現中間件的幾種方式5. JSP中Servlet的Request與Response的用法與區別6. CSS hack用法案例詳解7. 詳解瀏覽器的緩存機制8. PHP字符串前后字符或空格刪除方法介紹9. 詳解盒子端CSS動畫性能提升10. XML解析錯誤：未組織好的解決辦法

排行榜

					
					Vue新搭檔TypeScript快速入門實踐記錄
10個示例帶你掌握python中的元組
怎樣用JavaScript實現觀察者模式
淺析idea生成war包放入tomcat的路徑訪問問題
centos下配置ftp允許以root用戶身份登錄
idea設置自動導入依賴的方法步驟
如何使用IDEA創建MAPPER模板過程圖解
解決idea中debug工具欄消失后如何顯示的問題
python 爬取影視網站下載鏈接
詳解Java執行groovy腳本的兩種方式
Spring Utils工具類常用方法實例