国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python 爬蟲(chóng) 解析效率如何提升?

瀏覽:101日期:2022-06-29 17:26:48

問(wèn)題描述

現(xiàn)在采用的是在windows 環(huán)境下 采用多線程的方式進(jìn)行爬取,使用beautifulsoup+lxml進(jìn)行解析.

N個(gè)爬取線程->解析隊(duì)列->1個(gè)解析線程->存儲(chǔ)隊(duì)列->1個(gè)存儲(chǔ)線程

整個(gè)執(zhí)行程序的效率卡在計(jì)算密集的解析線程中,如果只是增加解析線程數(shù)量的話,反而增加線程切換開(kāi)銷速度變慢。

請(qǐng)問(wèn)下 有什么辦法可以較為明顯的提升解析效率?

根據(jù)兩位大腿的說(shuō)明 準(zhǔn)備采用異步爬取->解析隊(duì)列->N個(gè)解析進(jìn)程->存儲(chǔ)隊(duì)列->存儲(chǔ)線程

準(zhǔn)備開(kāi)工

問(wèn)題解答

回答1:

其實(shí)我覺(jué)得, 你在前面N個(gè)爬取線程 可以換成協(xié)程/線程池實(shí)現(xiàn), 因?yàn)槟阍陬l繁創(chuàng)建線程本省一種性能耗費(fèi), 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無(wú)法避免, 所以協(xié)程這方面, 應(yīng)該是比較合適的.1個(gè)解析線程 換成 進(jìn)程池,多開(kāi)幾個(gè)進(jìn)程去計(jì)算密集處理, 其余應(yīng)該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫(xiě)咯, 希望可以幫到你

回答2:

我的做法是多進(jìn)程。多進(jìn)程的好處是當(dāng)單機(jī)性能不夠的時(shí)候,可以隨時(shí)切換為分布式爬蟲(chóng)。

回答3:

可以網(wǎng)上找下tornade異步爬蟲(chóng)吧,我正在用這個(gè)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 九九精品视频在线观看九九 | 美女午夜色视频在线观看 | 欧美日韩免费一区二区在线观看 | 人久热欧美在线观看量量 | 日韩大片高清播放器大全 | 久久精品大片 | 日韩在线手机看片免费看 | 成人久久在线 | 国产一级一国产一级毛片 | 国产在线视频自拍 | 亚洲国产精品综合欧美 | 国产欧美日韩精品在线 | 依依成人综合网 | 日韩亚洲人成网站在线播放 | 制服丝袜在线视频香蕉 | 99在线观看视频 | 亚州免费| 精品国产一区二区三区不卡 | 亚洲视频一区在线观看 | 99久久这里只精品国产免费 | 亚洲精品自拍 | 波多野结衣在线视频免费观看 | 五月色婷婷综合开心网亚 | 中国国产一级毛片视频 | 国产成人高清精品免费5388密 | 91精品国产91久久久久久 | 欧美美女网站 | 国产喷水女王在线播放 | 1204国产成人精品视频 | 精品国产免费第一区二区三区日韩 | 国产精品成人一区二区 | jk制服福利在线播放 | 在线视频 国产交换 | 国产一级性片 | 亚洲人成日本在线观看 | 国产三级精品在线观看 | 国产精品日韩欧美一区二区 | 综合久久99久久99播放 | 亚洲在线影院 | 成年视频国产免费观看 | 亚洲视频在线免费播放 |