国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

使用Python文件讀寫(xiě),自定義分隔符(custom delimiter)

瀏覽:88日期:2022-07-18 15:35:59

眾所周知,python文件讀取文件的時(shí)候所支持的newlines(即換行符),是指定的。這一點(diǎn)不管是從python的doucuments上還是在python的源碼中(作者是參考了python的io版本,并沒(méi)有閱讀C版本),都可以看出來(lái):

if newline is not None and not isinstance(newline, str): raise TypeError('illegal newline type: %r' % (type(newline),))if newline not in (None, '', 'n', 'r', 'rn'): raise ValueError('illegal newline value: %r' % (newline,))

好吧,問(wèn)題來(lái)了,如果你恰好是個(gè)苦逼的生物狗,正在用python處理所謂的fastq格式的測(cè)序結(jié)果文件,每次只讀一行往往不是你想要的。Ok, 我們也都知道其實(shí)這個(gè)問(wèn)題在Perl里面十分好解決,無(wú)非就是重新定義下文件的分割符($/,The input record separator, newline by default. Set undef to read through the end of file.)

local $/; # enable 'slurp' modelocal $_ = <FH>; # whole file now heres/n[ t]+/ /g;

簡(jiǎn)單粗暴有效!《Programming Perl》開(kāi)頭的那些關(guān)于什么是happiness定義看來(lái)所言非虛,所以你只要需要將$/定義為fastq格式的分隔符就ok了。

但是,如果是Python呢?(容易鉆牛角尖的孩紙,又或者是不喜歡花括號(hào)的孩子…..反正就是強(qiáng)行高端了)。終于要進(jìn)入正題了,OK,在python中又有兩種方式解決這個(gè)問(wèn)題,看你個(gè)人喜好選擇了(當(dāng)然要是有大神知道四種、五種方法,也不妨指導(dǎo)一下我這個(gè)小菜鳥(niǎo))。

方案一的代碼:

import _pyioimport ioimport functoolsclass MyTextWrapper(_pyio.TextIOWrapper): def readrecod(self, sep): readnl, self._readnl = self._readnl, sep self._readtranslate = False self._readuniversal = False try: return self.readline() finally: self._readnl = readnl#class MyTextWrapper(_pyio.TextIOWrapper):# def __init__(self, *args, separator, **kwargs):# super().__init__(*args,**kwargs)# self._readnl = separator# self._readtranslate = False# self._readuniversal = False# print('{}:t{}'.format(self,self._readnl))f = io.open(’data’,mode=’rt’)#f = MyTextWrapper(f.detach(),separator = ’>’)#print(f._readnl)f = MyTextWrapper(f.detach())records=iter(functools.partial(f.readrecod, ’>’), ’’)for r in records: print(r.strip(’>’)) print('###')

Ok,這是Python3.x中的方法(親測(cè)),那么在Python2.x中需要改動(dòng)的地方,目測(cè)好像是(沒(méi)有親測(cè))

super(MyTextWrapper,self).__init__(*args,**kwargs)

這個(gè)方法看上去還是比較elegant,但是efficient 嗎?答案恐怕并不,畢竟放棄了C模塊的速度優(yōu)勢(shì),但是OOP寫(xiě)起來(lái)還是比較舒服的。對(duì)了值得指出的Python的I/O是一個(gè)layer一個(gè)layer的累加起來(lái)的。從這里我們就能看出來(lái)。當(dāng)然里面的繼承關(guān)系還是值得研究一下的,從最開(kāi)始的IOBase一直到最后的TextIOWrapper,這里面的故事,還是要看一看的。

方案二的代碼:

#!/usr/bin/env pythondef delimited(file, delimiter = ’n’, bufsize = 4096): buf = ’’ while True: newbuf = file.read(bufsize) if not newbuf: yield buf return buf += newbuf lines = buf.split(delimiter) for line in lines[:-1]: yield line buf = lines[-1]with open(’data’, ’rt’) as f: lines = delimited(f, ’>’, bufsize = 1) for line in lines: print line, print ’######’

Ok,這里用到了所謂的generator函數(shù),優(yōu)雅程度也還行,至于效率么,請(qǐng)自行比較和測(cè)試吧(畢竟好多生物程序猿是不關(guān)心效率的…..)。如此一來(lái),比Perl多敲了好多代碼,唉,懷念Perl的時(shí)代啊,簡(jiǎn)單粗暴有效,就是幸福的哲學(xué)么。

當(dāng)然還有童鞋要問(wèn),那么能不能又elegant還efficient(我可是一個(gè)高端的生物程序猿,我要強(qiáng)行高端!)答案是有的,請(qǐng)用Cython! 問(wèn)題又來(lái)了,都Cython了,為什么不直接用C呢?確實(shí),C語(yǔ)言優(yōu)美又混亂。

補(bǔ)充知識(shí):Python.json.常見(jiàn)兩個(gè)錯(cuò)誤處理(Expecting , delimiter)(Invalid control character at)

ValueError: Invalid control character at: line 1 column 122(char 123)

出現(xiàn)錯(cuò)誤的原因是字符串中包含了回車(chē)符(r)或者換行符(n)

解決方案:

轉(zhuǎn)義

json_data = json_data.replace(’r’, ’r’).replace(’n’, ’n’)

使用關(guān)鍵字strict

json.loads(json_data, strict=False)

ValueError: Expecting , delimiter: line 13 column 650 (char 4186)

原因:json數(shù)據(jù)不合法,類(lèi)似“group_buy_create_description_text”: “1. Select the blue “Buy” button to let other shoppers buy with you.這樣的內(nèi)容出現(xiàn)在json數(shù)據(jù)中。

解決方案:

將類(lèi)似的情形通過(guò)正則篩選出來(lái)通過(guò)下面的方式處理。

正則表達(dá)式如下:

json_data = json_data.replace(’''’, ’'########'’)

js_str = ’'[sS]+?':s?'([sS]+?)'}?}?]?,’

后續(xù)使用中發(fā)現(xiàn)無(wú)法匹配value為空的情況,故先做一下預(yù)處理

這個(gè)正則可以匹配到大部分的key,value中的value值,但是也有例外,暫時(shí)的處理方法是如果匹配結(jié)果中包含”{“, “}”, “[“, “]”這樣的字符,說(shuō)明是匹配失敗結(jié)果,跳過(guò)處理。其他的使用下邊的方法替換掉可能出問(wèn)題的字符。

如果大家有更好的正則匹配方式,歡迎隨時(shí)批評(píng)指正。

def htmlEscape(input) { if not input return input; input = input.replace('&', '&amp;'); input = input.replace('<', '&lt;'); input = input.replace('>', '&gt;'); input = input.replace(' ', '&nbsp;'); input = input.replace('’', '&#39;'); //IE暫不支持單引號(hào)的實(shí)體名稱(chēng),而支持單引號(hào)的實(shí)體編號(hào),故單引號(hào)轉(zhuǎn)義成實(shí)體編號(hào),其它字符轉(zhuǎn)義成實(shí)體名稱(chēng) input = input.replace(''', '&quot;'); //雙引號(hào)也需要轉(zhuǎn)義,所以加一個(gè)斜線對(duì)其進(jìn)行轉(zhuǎn)義 input = input.replace('n', '<br/>'); //不能把n的過(guò)濾放在前面,因?yàn)檫€要對(duì)<和>過(guò)濾,這樣就會(huì)導(dǎo)致<br/>失效了 return input; }

以上這篇使用Python文件讀寫(xiě),自定義分隔符(custom delimiter)就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。

標(biāo)簽: Python 編程
主站蜘蛛池模板: 久久毛片免费看 | 久久国产视频在线观看 | 91香蕉国产 | 黄a视频 | 97视频在线播放 | 国产亚洲精品久久久久91网站 | 亚洲精品国产成人 | 欧美一级大片在线观看 | 狠狠色丁香久久婷婷综合_中 | 日本三级香港三级乳网址 | 真人一级毛片 | 欧洲成人全免费视频网站 | 91国内视频在线观看 | 成人欧美视频在线观看播放 | 国产精品美女久久久久网站 | 91久久综合九色综合欧美98 | 日韩免费专区 | 高清欧美日本视频免费观看 | 欧美成人免费大片888 | 久久机热综合久久国产 | 九九热爱视频精品视频高清 | 国产日产亚洲系列首页 | 欧美成年黄网站色视频 | 欧美特欧美特级一片 | 伊人55影院 | 国产精品二区在线 | 一个人看的www片免费视频中文 | 成人在线免费观看视频 | 99九九精品免费视频观看 | 日韩成人在线视频 | 成年免费大片黄在线观看一 | 成人深夜福利在线播放不卡 | 亚洲精品成人一区二区 | 国产特黄特色一级特色大片 | 日韩专区亚洲综合久久 | 日韩欧美中文字幕一区二区三区 | 亚洲综合一二三区 | 天堂素人搭讪系列嫩模在线观看 | 国产伦一区二区三区四区久久 | 波多野结衣在线免费观看视频 | 一级做a爰片久久毛片16 |