国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

python - 關于代碼的優化問題

瀏覽:119日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網站下來的,和網頁另存為沒什么區別。

想大神們幫我看看我的代碼,怎么優化不會有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 毛片韩国 | 亚洲一区二区在线成人 | 日本一区毛片免费观看 | 久久国产毛片 | 91亚洲精品一区二区在线观看 | 久久频这里精品99香蕉久网址 | 久久93精品国产91久久综合 | 久草新免费| 自拍视频精品 | 99精品视频在线观看免费播放 | 国产精品亚洲第一区柳州莫青 | 成年人网站在线观看视频 | 欧美精品另类hdvideo | 国产高清一区二区三区四区 | 99久久伊人一区二区yy5o99 | 麻豆19禁国产青草精品 | 粉嫩高中生的第一次在线观看 | 中文字幕精品在线观看 | 伊人久久大香线焦在观看 | a毛片免费播放全部完整 | 国产亚洲高清不卡在线观看 | 国产高清在线观看 | 久久精品全国免费观看国产 | 91中文字幕网 | 不卡的毛片 | 日本一区二区三区精品视频 | 偷拍第1页 | 国产午夜亚洲精品一区网站 | 香蕉视频黄色在线观看 | 国产精品成aⅴ人片在线观看 | 欧美国产一区二区 | 99国产精品免费观看视频 | 香蕉久久a毛片 | 日韩在线第一区 | 综合久久精品 | 久草视频免费 | 精品国产欧美一区二区五十路 | 国产成人精品免费视频大全可播放的 | 另类亚洲孕妇分娩网址 | 国产一级片免费看 | 午夜mm131美女做爰视频 |