国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

python - 關(guān)于代碼的優(yōu)化問題

瀏覽:147日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內(nèi)容,雖然解決問題,但是會(huì)有遺漏文件不處理。爬蟲是爬一些文章的網(wǎng)站下來的,和網(wǎng)頁另存為沒什么區(qū)別。

想大神們幫我看看我的代碼,怎么優(yōu)化不會(huì)有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 午夜视频国产 | 久久免费网 | 亚洲天堂在线视频观看 | 亚洲精品一区二区在线观看 | 国产美女动态免费视频 | 中文字幕无线码中文字幕网站 | 欧美一级毛级毛片 | 中文字幕视频在线 | 国产亚洲精品线观看77 | 久久影院国产 | 亚洲精品一区专区 | 99精品国产成人一区二区 | 特色黄色片 | 国产高清日韩 | 欧美嫩交 | 国产成人福利视频网站 | 国产精品99精品久久免费 | 欧美一a级做爰 | 成年免费网站 | 国产欧美久久久另类精品 | 欧美国产日韩在线播放 | 久久成人国产精品 | 国产视频在线免费观看 | 日韩欧美精品综合一区二区三区 | 中文字幕一区二区三区 精品 | 亚洲小视频在线观看 | 国产高清在线看免费视频观 | 国产v片在线播放免费观 | 男女乱配视频免费观看 | 欧美国产在线一区 | 久久福利资源网站免费看 | 最新主播福利视频在线观看 | 国产欧美一区二区精品性色 | 免费视频网站一级人爱视频 | 国产精品爽爽va在线观看无码 | 日韩在线观看视频网站 | 亚洲日本va| 欧美一级片免费 | 亚洲免费天堂 | 国产午夜小视频 | 欧美视频三级 |