文章詳情頁
python - 網頁title中包含換行,如何用正則表達式提取出來?
瀏覽:118日期:2022-06-28 10:07:00
問題描述
在用python做CSDN的網頁爬蟲,在爬取網頁title時,我一直用的正則表達式(?<=<title>).+?(?=<)在CSDN中用不了了,去CSDN源碼一看,title換行顯示了
所以導致原來的正則表達式無法使用,那么,問題來了,像這樣網頁title中包含換行,如何用正則表達式提取出來呢?
PS:
不想用xpath或beautifulsoup的方法,只需要正則哦
CSDN本身有反爬蟲機制,我并不是因為這個反爬蟲而爬不到title的哦
謝謝大家
參照@caimaoy 的方法,我將正則表達式改為 (?<=<title>)(?:.|n)+?(?=<)后,title完美提取。再次感謝大家。
問題解答
回答1:re.M 多行模式
自己寫多行匹配 http://python3-cookbook.readt...
回答2:表達式那邊加個flag吧
tite = ’......’print(re.findall(’(?<=<title>).+?(?=<)’, title, re.S))
排行榜
