python3.x - 求助python下高效且支持大數(shù)據(jù)量的database2excel方案
問題描述
大家好。小弟目前需要一個(gè)速度較好,且支持大數(shù)據(jù)量的數(shù)據(jù)庫導(dǎo)出至excel(xlsx)的方案小弟的機(jī)器配置不高,4核的CPU,可用內(nèi)存在8G左右(不過是虛擬機(jī),可能性能實(shí)際還要低一點(diǎn))小弟之前嘗試過以下幾種方案openpyxl:大數(shù)據(jù)量情況下經(jīng)常會(huì)吃光內(nèi)存。實(shí)驗(yàn)生成100W條/每條6個(gè)字段的數(shù)據(jù),經(jīng)常會(huì)把小弟這8G內(nèi)存吃滿。生成excel時(shí)間大概在10分鐘~11分鐘左右pyexcel_xlsx:貌似這部分引用的還是openpyxl的東東…不過貌似有一定的優(yōu)化,生成生成100W條/每條6個(gè)字段的數(shù)據(jù),消耗內(nèi)存近3G,時(shí)間在8分半左右
這兩個(gè)方案效率都非常低,而且小弟目前都沒有找到中途將內(nèi)存寫入文件的方法…
請(qǐng)各位大大指點(diǎn),是否還有其他的方案,最好是能夠控制單次寫入條數(shù),例如每寫入5W條,進(jìn)行一次提交,將內(nèi)存的東東寫在文件中并釋放內(nèi)存,再繼續(xù)寫入這樣的。(這樣也許可以考慮配合多線程來進(jìn)行并行寫入,加快效率…)謝謝各位了
問題解答
回答1:pandas有分塊讀取的功能,關(guān)鍵詞chunksizedf = pd.read_csv('xxxx',chunksize=10000)可以去研究下文檔:http://pandas.pydata.org/pand...
相關(guān)文章:
1. 怎么在網(wǎng)頁中設(shè)置圖片進(jìn)行左右滑動(dòng)2. node.js - mysql如何通過knex查詢今天和七天內(nèi)的匯總數(shù)據(jù)3. mysql 插入數(shù)值到特定的列一直失敗4. mysql 怎么做到update只更新一行數(shù)據(jù)?5. python2.7 - python 函數(shù)或者類 代碼的執(zhí)行順序6. javascript - 新浪微博網(wǎng)頁版的字?jǐn)?shù)限制是怎么做的7. python - 多態(tài)調(diào)用方法時(shí)卻顯示bound method...8. 360瀏覽器與IE瀏覽器有何區(qū)別???9. javascript - 用jsonp抓取qq音樂總是說回調(diào)函數(shù)沒有定義10. sublime可以用其他編譯器替換嗎?
