文章詳情頁

java - 對(duì)gzip文件進(jìn)行流式解壓時(shí)，如何解壓出其中某些單獨(dú)的數(shù)據(jù)塊中的數(shù)據(jù)？

瀏覽：77日期：2023-11-06 18:09:25

問題描述

場(chǎng)景描述：

現(xiàn)有許多行日志文本，按天壓縮成一個(gè)個(gè)TB級(jí)的gzip文件。使用流對(duì)每個(gè)壓縮文件的數(shù)據(jù)段進(jìn)行傳輸然后解壓，對(duì)解壓出的文本分詞并索引以后查到這個(gè)詞時(shí)，定位到這個(gè)詞所在的文件和段，再用流傳輸并解壓（實(shí)際上是想利用已有的壓縮文件構(gòu)造一個(gè)類似ES的搜索引擎）

現(xiàn)在的問題是，因?yàn)榻邮盏降牟皇峭暾膲嚎s文件而是塊狀二進(jìn)制數(shù)據(jù)，所以接收的數(shù)據(jù)由于信息不完全而無法解壓

現(xiàn)在想實(shí)現(xiàn)這樣的功能：首先將接收到的流數(shù)據(jù)解壓還原為完整的數(shù)據(jù)（原始日志數(shù)據(jù)以換行符分隔，能得到每段流數(shù)據(jù)壓縮前的文本和對(duì)應(yīng)文件的偏移量就好），然后考慮到傳輸和存儲(chǔ)等過程可能使數(shù)據(jù)出錯(cuò)，所以針對(duì)每段數(shù)據(jù)流，在出錯(cuò)的情況下解壓出盡可能多的數(shù)據(jù)。

部分相關(guān)代碼如下：（改自https://stackoverflow.com/que...）

import zlibimport tracebackCHUNKSIZE=30d = zlib.decompressobj(16 + zlib.MAX_WBITS)f = open(’test.py.gz’,’rb’)buffer = f.read(CHUNKSIZE)i = 0while buffer : i += 1 try:#skip two chunk if i < 3 or i > 4: outstr = d.decompress(buffer) print(’*’*10 + outstr + ’#’*10) except Exception, e:print(traceback.print_exc()) finally:buffer = f.read(CHUNKSIZE)outstr = d.flush()print(outstr)f.close()

當(dāng)i>=3以后，每次循環(huán)均報(bào)錯(cuò)我的結(jié)論是若流不連續(xù)（跳過接收部分?jǐn)?shù)據(jù)），則之后的數(shù)據(jù)都無法解壓。問題1：如果做到能正確的解壓出收到的每部分?jǐn)?shù)據(jù)？（因?yàn)榭赡軤可娴絞zip壓縮的算法和數(shù)據(jù)結(jié)構(gòu)，我正在看相關(guān)代碼。如果可以通過追加傳輸頭部的某一chuck或者需要解壓的數(shù)據(jù)的前后某些chuck能解決問題也算可以）問題2：如果不能正確的解壓接收到的每部分?jǐn)?shù)據(jù)，那么如何做到解壓出盡可能多的數(shù)據(jù)？

問題解答

回答1：

我覺得可以做一個(gè)出錯(cuò)重新續(xù)傳的功能，傳輸前備份當(dāng)前這一段數(shù)據(jù)流，你得判斷出當(dāng)前傳輸?shù)倪@一段數(shù)據(jù)流是否傳輸完整了。這就要求傳送端和接收端之間的傳輸協(xié)議是你能改動(dòng)的，出現(xiàn)錯(cuò)誤就立刻反饋fail給傳輸端，從剛才這段重新續(xù)傳，沒有錯(cuò)誤就反饋OK，繼續(xù)傳輸下一段。這樣就能保證數(shù)據(jù)的完整性。如果文件太大，可以在內(nèi)存中備份多些數(shù)據(jù)段，做些細(xì)節(jié)性的判斷。

回答2：

不太確定你描述的問題，不過在stackoverflow 有些問答或許有幫助。

How can I decompress a gzip stream with zlib?

Python decompressing gzip chunk-by-chunk

java

上一條：java - 如何在調(diào)用static方法前默認(rèn)調(diào)用一段代碼？下一條：java - 單元測(cè)試，怎么讓spring管理事務(wù)又不污染數(shù)據(jù)庫

排行榜

					
					javascript - webpack打包出現(xiàn)react-dom相關(guān)錯(cuò)誤
android - 能夠自定義安卓webview的內(nèi)核版本嗎
怎么能做出標(biāo)簽切換頁的效果，（文字內(nèi)容隨動(dòng)）
python - 安裝anaconda2出錯(cuò)
html - 爬蟲時(shí)出現(xiàn)“DNS lookup failed”，打開網(wǎng)頁卻沒問題，這是什么情況？
vue.js - vue獲取mongodb中的數(shù)據(jù)起初顯示未定義，但還是可以渲染
mac連接阿里云docker集群，已經(jīng)卡了2天了，求問？
javascript - 如何讓手機(jī)端的代碼只能在手機(jī)端執(zhí)行，在pc端的模擬器里面也不執(zhí)行
PHP訂單派單系統(tǒng)
數(shù)組排序，并把排序后的值存入到新數(shù)組中
為啥不用HBuilder?
				

熱門標(biāo)簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

java - 對(duì)gzip文件進(jìn)行流式解壓時(shí)，如何解壓出其中某些單獨(dú)的數(shù)據(jù)塊中的數(shù)據(jù)？