python - 正則表達(dá)式匹配html的問(wèn)題。
問(wèn)題描述
<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文內(nèi)容 #需要抓取的內(nèi)容</dd>用BeautifulSoup html.parser解析的網(wǎng)頁(yè),現(xiàn)在用re模塊想抓取**第7行**的中文內(nèi)容,放在一個(gè)組里面(.*?)。正則老是匹配不上,用換行符也匹配不上,不知道怎么寫(xiě)了。。。
問(wèn)題解答
回答1:既然你都用bs4解析了,為什么不用它提取哪?bs4內(nèi)有一個(gè)stripped_string的函數(shù)正好滿(mǎn)足你的需要。
回答2:import repattern = re.compile(r’</span>.*?</span>(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文內(nèi)容 #需要抓取的內(nèi)容</dd>’’’print(pattern.search(str).group(1))===> 中文內(nèi)容 #需要抓取的內(nèi)容回答3:
const re = /^</span>(.*)</dd>$/
這樣可以不?
相關(guān)文章:
1. atom開(kāi)始輸入!然后按tab只有空格出現(xiàn)沒(méi)有html格式出現(xiàn)2. javascript - js setTimeout在雙重for循環(huán)中如何使用?3. javascript - vue-cli npm run build編譯報(bào)錯(cuò)4. mysql - 這種分級(jí)一對(duì)多,且分級(jí)不平衡的模型該怎么設(shè)計(jì)表?5. mac里的docker如何命令行開(kāi)啟呢?6. javascript - 有適合開(kāi)發(fā)手機(jī)端Html5網(wǎng)頁(yè)小游戲的前端框架嗎?7. node.js - 阿里云ECS,阿里云Docker,還有Leancloud的LeanEgine,哪個(gè)更適合NodeJs WebApp?8. python - pip install出現(xiàn)下面圖中的報(bào)錯(cuò) 什么原因?9. java - 線(xiàn)上應(yīng)用,如果數(shù)據(jù)庫(kù)操作失敗的話(huà)應(yīng)該如何處理?10. java - 創(chuàng)建maven項(xiàng)目失敗了 求解決方法
