文章詳情頁

python - Scrapy存在內存泄漏的問題。

瀏覽：105日期：2022-06-27 09:37:33

問題描述

再編寫爬蟲的時候，總是跑了一段時間（不會超過12個小時）就會被OOM掉。很是無奈！！！根據官方的文檔，使用這個prefs()但是實在找不出問題的所在。

Live ReferencesHtmlResponse 42 oldest: 753s agoMySuteSpider1 oldest: 2964s agoRequest 32412 oldest: 2920s agoSelector 42 oldest: 751s agoTripItem 37 oldest: 751s ago

爬蟲的處理是獲取所有頁面的a標簽的鏈接：

#獲取域名的后綴def get_domain_suffix(domain): if ’com’ in tldextract.extract(domain).suffix:return True return False#拼接域名。只存主域名def save_domain(domain): domain_name = tldextract.extract(domain).domain suffix_name = tldextract.extract(domain).suffix return domain_name + ’.’ + suffix_name#獲取域名ipdef get_domain_ip(domain): try:ip = socket.gethostbyname(domain)return ip except:return ’114.114.114.114’# 獲取域名所在的國家def get_domain_ct_iso(ip): GEO = geoip2.database.Reader(’/var/test/geodb/GeoLite2-City.mmdb’) r = GEO.city(ip) return r.country.iso_codeclass MyDomainSpider(scrapy.Spider): name = ’my_domain’ start_urls = [’http://xxx.com ] def parse_items(self, response):item = TripItem()for url in response.xpath(’//a/@href’).extract(): if url.startswith(’http’): domain = urlparse.urlparse(url).netloc if get_domain_tw(domain) or get_domain_ct_iso(get_domain_ip(domain)) == ’US’:item[’domain’] = save_domain(domain)item[’ip’] = get_domain_ip(domain)item[’datetime’] = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')yield item def parse(self, response):for url in response.xpath(’//a/@href’).extract(): if url.startswith(’http’):domain = urlparse.urlparse(url).netlocif get_domain_tw(domain) or get_domain_ct_iso(get_domain_ip(domain)) == ’US’: yield scrapy.Request(url, callback=self.parse_items)

請指教一下謝謝

問題解答

回答1：

yield item 是不是得落地，存文件或者db，不然一直存內存了

Python 編程

上一條：python - 在使用Pycharm時經常看到如下的樣式，小括號里紅色的部分是什么意思呢？下一條：javascript - 請教如何獲取百度貼吧新增的兩個加密參數

相關文章：

1. 求大神支招，php怎么操作在一個html文件的<head>標記內添加內容？2. 安裝了“PHP工具箱”，但只能以“游客”身份登錄3. 老師們php,插入數據庫mysql，都是空的，要怎么解決4. 跨類調用后，找不到方法5. 在mybatis使用mysql的ON DUPLICATE KEY UPDATE語法實現存在即更新應該使用哪個標簽?6. 致命錯誤: Class ’appfacadeTest’ not found7. 在應用配置文件 app.php 中找不到’route_check_cache’配置項8. PHP類屬性聲明？9. 怎么php怎么通過數組顯示sql查詢結果呢，查詢結果有多條，如圖。10. phpstady在win10上運行

排行榜

					
					mysql - sysbench cpu測試的結果看不懂，求解
java-web - 剛配置好的MySQL，插入中文，然后取出就亂碼,問題到底處在哪邊？
【python小白】  問關于property的順序問題
javascript - vuejs+elementui 購物車價格計算，點擊加減號修改數量總價都不會改變，但是計算執行了
在MySQL中，執行了DELIMITER // 這個語句后分號還有什么作用？
javascript - 切換掉當前頁面后該頁面的js動畫會暫停？
前端 - 求解？這種寫法怎么理解
sql語句 - 如何在mysql中批量添加用戶？
javascript - pluploader這個上傳插件能異步上傳嗎
mysql優化 - mysql update和delete和insert 操作多條數據的背后情況
在mybatis使用mysql的ON DUPLICATE KEY UPDATE語法實現存在即更新應該使用哪個標簽?
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python - Scrapy存在內存泄漏的問題。