文章詳情頁

python - 網頁title中包含換行，如何用正則表達式提取出來？

瀏覽：118日期：2022-06-28 10:07:00

問題描述

在用python做CSDN的網頁爬蟲，在爬取網頁title時，我一直用的正則表達式(?<=<title>).+?(?=<)在CSDN中用不了了，去CSDN源碼一看，title換行顯示了 python - 網頁title中包含換行，如何用正則表達式提取出來？

所以導致原來的正則表達式無法使用，那么，問題來了，像這樣網頁title中包含換行，如何用正則表達式提取出來呢？

PS：

不想用xpath或beautifulsoup的方法，只需要正則哦

CSDN本身有反爬蟲機制，我并不是因為這個反爬蟲而爬不到title的哦

謝謝大家

參照@caimaoy 的方法，我將正則表達式改為 (?<=<title>)(?:.|n)+?(?=<)后，title完美提取。再次感謝大家。

問題解答

回答1：

re.M 多行模式

自己寫多行匹配 http://python3-cookbook.readt...

回答2：

表達式那邊加個flag吧

tite = ’......’print(re.findall(’(?<=<title>).+?(?=<)’, title, re.S))

Python 編程

上一條：python - 如何正則字符串中的所有漢字下一條：python - 使用`zipfile`模塊在不解壓縮的情況下如何使用text模式讀取文本文件？

排行榜

					
					javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題
人工智能 - python 機器學習 醫療數據 怎么學
如何解決Centos下Docker服務啟動無響應，且輸入docker命令無響應？
javascript - main head .intro-text{width:40%} main head{display:flex}為何無效？
angular.js - 用angular2-cli打包項目之后，跳轉路由刷新會報404的錯誤
python 計算兩個時間相差的分鐘數，超過一天時計算不對
如何修改phpstudy的phpmyadmin放到其他地方
爬蟲圖片 - 關于Python 爬蟲的問題
node.js - 問個問題 Uncaught (in promise)
pip安裝提示Twisted錯誤問題（Python3.6.4安裝Twisted錯誤）
java - 如何在Fragment中調用Activity的onNewIntent?
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python - 網頁title中包含換行，如何用正則表達式提取出來？