国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

python 爬蟲 解析效率如何提升?

瀏覽:122日期:2022-06-29 17:26:48

問題描述

現在采用的是在windows 環境下 采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執行程序的效率卡在計算密集的解析線程中,如果只是增加解析線程數量的話,反而增加線程切換開銷速度變慢。

請問下 有什么辦法可以較為明顯的提升解析效率?

根據兩位大腿的說明 準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1:

其實我覺得, 你在前面N個爬取線程 可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.1個解析線程 換成 進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2:

我的做法是多進程。多進程的好處是當單機性能不夠的時候,可以隨時切換為分布式爬蟲。

回答3:

可以網上找下tornade異步爬蟲吧,我正在用這個

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 中国美女黄色一级片 | 一级做a爰片久久毛片苍井优 | 欧美精品成人3d在线 | 99精品久久99久久久久久 | 欧美日韩视频精品一区二区 | 另类亚洲视频 | 美女视频黄在线观看 | 131的美女午夜爱爱爽爽视频 | 日本在线不卡免 | 九九九免费视频 | 97超视频在线观看 | 在线欧美一级毛片免费观看 | 萌白酱在线喷水福利视频 | 欧美中文在线 | 成人禁在线观看午夜亚洲 | 成年大片免费视频播放二级 | 国产午夜亚洲精品理论片不卡 | 日本亚欧乱色视频在线网站 | 综合色久七七综合七七蜜芽 | 欧美一区二区三区免费播放 | 亚洲综合久久久久久中文字幕 | 欧美日韩第二页 | 特级av毛片免费观看 | 最新三级网址 | 亚洲国产精品久久 | 综合成人在线 | 国产午夜爽爽窝窝在线观看 | 久草免费资源 | 九九九国产视频 | 亚洲欧美日韩精品久久亚洲区 | 久久福利影视 | 国产在线视频一区 | 国产做a爰片久久毛片a | 国产精品一区二区资源 | 2022国产91精品久久久久久 | 久久两性| 中文久草| 久久国产免费一区 | 亚洲精品国产一区二区 | 成人国产精品一级毛片天堂 | 久久三级毛片 |