国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

python讀取hdfs并返回dataframe教程

瀏覽:3日期:2022-07-22 15:11:05

不多說,直接上代碼

from hdfs import Clientimport pandas as pd HDFSHOST = 'http://xxx:50070'FILENAME = '/tmp/preprocess/part-00000' #hdfs文件路徑COLUMNNAMES = [xx’] def readHDFS():’’’讀取hdfs文件 Returns:df:dataframe hdfs數(shù)據(jù)’’’client = Client(HDFSHOST)# 目前讀取hdfs文件采用方式:# 1. 先從hdfs讀取二進(jìn)制數(shù)據(jù)流文件# 2. 將二進(jìn)制文件另存為.csv# 3. 使用pandas讀取csv文件with client.read(FILENAME) as fs:content = fs.read()s = str(content, ’utf-8’)file = open('data/tmp/data.csv', 'w')file.write(s)df = pd.read_csv('data/tmp/data.csv', names=COLUMNNAMES)return df

補(bǔ)充知識:Python連接HDFS實(shí)現(xiàn)文件上傳下載及Pandas轉(zhuǎn)換文本文件到CSV

1. 目標(biāo)

通過hadoop hive或spark等數(shù)據(jù)計(jì)算框架完成數(shù)據(jù)清洗后的數(shù)據(jù)在HDFS上

爬蟲和機(jī)器學(xué)習(xí)在Python中容易實(shí)現(xiàn)

在Linux環(huán)境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實(shí)現(xiàn)

安裝Python模塊pyhdfs

版本:Python3.6, hadoop 2.9

讀文件代碼如下

from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’)#hdfs地址res=client.open(’/sy.txt’)#hdfs文件路徑,根目錄/for r in res: line=str(r,encoding=’utf8’)#open后是二進(jìn)制,str()轉(zhuǎn)換為字符串并轉(zhuǎn)碼 print(line)

寫文件代碼如下

from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’,user_name=’hadoop’)#只有hadoop用戶擁有寫權(quán)限str=’hello world’client.create(’/py.txt’,str)#創(chuàng)建新文件并寫入字符串

上傳本地文件到HDFS

from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)client.copy_from_local(’d:/pydemo.txt’, ’/pydemo’)#本地文件絕對路徑,HDFS目錄必須不存在

3. 讀取文本文件寫入csv

Python安裝pandas模塊

確認(rèn)文本文件的分隔符

# pyhdfs讀取文本文件,分隔符為逗號,from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)inputfile=client.open(’/int.txt’)# pandas調(diào)用讀取方法read_tableimport pandas as pddf=pd.read_table(inputfile,encoding=’gbk’,sep=’,’)#參數(shù)為源文件,編碼,分隔符# 數(shù)據(jù)集to_csv方法轉(zhuǎn)換為csvdf.to_csv(’demo.csv’,encoding=’gbk’,index=None)#參數(shù)為目標(biāo)文件,編碼,是否要索引

以上這篇python讀取hdfs并返回dataframe教程就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 99精品久久99久久久久 | 成人午夜天 | 女初高中福利视频在线观看 | 俄罗斯三级毛片 | 香港国产特级一级毛片 | 欧美成人精品欧美一级乱黄 | 国产成人免费福利网站 | 欧美h版成版在线观看 | 三级三级三级网站网址 | 亚洲 欧美 都市 自拍 在线 | 国产一区二区免费在线 | 美女扒开腿被男人猛视频 | 久草资源福利 | 欧美一级片免费看 | 国产高清精品在线 | a级片免费在线播放 | 欧美大片在线播放 | 国产一区二区三区在线观看影院 | 又刺激又黄的一级毛片 | 精品国产免费一区二区三区 | 欧美满嘴射 | 欧美一区二区三区高清视频 | 亚洲在线网 | 色偷偷在线刺激免费视频 | 久久精品视频在线观看榴莲视频 | 国产精品久久久久免费a∨ 国产精品久久久久免费视频 | 亚洲日本va午夜中文字幕一区 | 日韩不卡一二三区 | 国产精品免费大片一区二区 | 午夜精品久久久久久毛片 | 日韩在线视精品在亚洲 | 欧美成人h | 欧美成人免费看片一区 | 18女人毛片大全 | 欧美亚洲视频一区 | 亚洲精品国产美女在线观看 | 欧美国产成人免费观看永久视频 | 8000av在线| 9191精品国产免费不久久 | 欧美日韩成人在线视频 | 一区二区三区四区五区六区 |