文章詳情頁

Python讀取pdf表格寫入excel的方法

瀏覽：4日期：2022-06-29 13:18:40

背景

今天突然想到之前被要求做同性質銀行的數據分析。媽耶！十幾個銀行，每個銀行近5年的財務數據，而且財務報表一般都是 pdf 的，我們將 pdf 中表的數據一個個的拷貝到 excel 中，再借助 excel 去進行求和求平均等聚合函數操作，完事了還得把求出來的結果再統一 CV 到另一張表中，進行可視化分析…

當然，那時風流倜儻的老Amy 還熟練的玩轉著 excel ，也是個秀兒~ 今天就思索著，如果當年我會 Python 是不是可以讓我成為班級最靚的崽！用技術占領高地，HHH，所以今天我來了，希望可以幫助大家解決同性質的問題。

開始學習叭避免CV大法

pdf 文件的表格的數據可以復制，但是這是一項非常繁瑣的事情。所以我首先考慮的是，Python 可否幫助我們高效且規范地讀取 pdf 中的表格數據。所以一頓的檢索，發現了一個比較優質處理 pdf 的庫：pdfplumber，當然這個庫需要大家 pip install pdfplumber 去進行安裝。以及詳細使用可參考全球最大基友社區：https://github.com/jsvine/pdfplumber

步驟：導入 pdfplumber 庫通過 pdfplumber.open() 函數獲取 mt2018.pdf 文件對象通過該對象.pages 獲取 pdf 每頁的對象，截取我們需要的頁對象即可通過頁對象.extract_tables() 獲取表格數據（若需要獲取文本：頁對象.extract_text()）

代碼實現：

import pdfplumber# 獲取 pdf 文件對象pdf_mt = pdfplumber.open('mt2018.pdf')# 因為我需要獲取的資產負債表在 51-53頁但是索引從0開始所以切片取 50-52即可for pdf_pg in pdf_mt.pages[50:53]: # 只提取當前頁表格數據 print(pdf_pg.extract_tables()) --------------------------------------------------------------------------結果比較多，截取一部分：[[[’項目’, ’附注’, ’期末余額’, ’期初余額’], [’流動資產：’, ’’, ’’, ’’], [’貨幣資金’, ’1’, ’112,074,791,420.06’, ’87,868,869,913.34’], [’結算備付金’, ’’, ’’, ’’], [’拆出資金’, ’’, ’’, ’’], [’以公允價值計量且其變動計入當n期損益的金融資產’, ’’, ’’, ’’], [’衍生金融資產’, ’’, ’’, ’’], [’應收票據及應收賬款’, ’2’, ’563,739,710.00’, ’1,221,706,039.00’]]]將完整表保存到 csv 文件中

我們發現，返回的數據集是一個三維的列表。那么在我們平時處理的 excel 表格數據(行與列)都是二維的數據。那么，這多出的一維是什么呢？其實就是我們的夜[頁]~ 再來一個循環取出二維數據進行保存即可

for pdf_pg in pdf_mt.pages[50:53]: for pdf_tb in pdf_pg.extract_tables(): print(pdf_tb) ------------------------------------------------------------------------------結果比較多，截取一部分：[[’項目’, ’附注’, ’期末余額’, ’期初余額’], [’流動資產：’, ’’, ’’, ’’], [’貨幣資金’, ’1’, ’112,074,791,420.06’, ’87,868,869,913.34’], [’結算備付金’, ’’, ’’, ’’], [’拆出資金’, ’’, ’’, ’’], [’以公允價值計量且其變動計入當n期損益的金融資產’, ’’, ’’, ’’], [’衍生金融資產’, ’’, ’’, ’’], [’應收票據及應收賬款’, ’2’, ’563,739,710.00’, ’1,221,706,039.00’]]

但是，真的那么簡單嗎？這時，我們就需要細品我們的 pdf 了，如下圖

Python讀取pdf表格寫入excel的方法

我們發現，一張完整的資產負債表分布在多頁上。也就是說，每一頁的里面的表格數據都是一個三維的列表，所以我們保存數據的時候，需要讓其有共同的表頭(列索引)，并且進行拼接。

那必須就要強推我們的 pandas 了，pandas.DataFrame() 非常完美的創建表格式的二維數組，以及指定列索引(表頭)。包括可以直接使用 df.append() 進行共同表頭數據的堆疊拼接。

import pdfplumberimport pandas as pdimport numpy as np# 創建僅有表頭的 dataframe 數組pdf_df = pd.DataFrame(columns=[’項目’, ’附注’, ’期末余額’, ’期初余額’])# 獲取 pdf 文件對象pdf_mt = pdfplumber.open('mt2018.pdf')# 因為我需要獲取的資產負債表在 51-53頁但是索引從0開始所以切片取 50-52即可for pdf_pg in pdf_mt.pages[50:53]: # 獲取二維列表 for pdf_tb in pdf_pg.extract_tables():# 將其拼接 pdf_df = pdf_df.append(pd.DataFrame(np.array(pdf_tb),columns=[’項目’, ’附注’, ’期末余額’, ’期初余額’]))# 顯示后五條pdf_df.tail()

dataframe數據輸出如下：

Python讀取pdf表格寫入excel的方法

pdf 53頁如下：

Python讀取pdf表格寫入excel的方法

實際上，大家也發現，我們獲取的最后一頁的數據還有一部分是另一個表的，所以我們需要將其去除，并且有序的設置行索引，再保存到 csv 文件中。

# 去除后三行pdf_df = pdf_df.iloc[:-3,:]# 重置索引pdf_df = pdf_df.reset_index(drop=True)# 保存到 csv 文件中pdf_df.to_csv('mt_2018.csv')

Python讀取pdf表格寫入excel的方法

當然，今天就到這里，其它的需求我們下次給大家完善。大家也可以自己將代碼封裝成函數，這樣就可以實現傳入 pdf文件名稱、頁數以及保存的文件名來復用代碼。如果大家再掌握了 pandas 就可以根據自己的需求，對各個表格數據進行處理。再結合 seaborn 繪圖可視化，完爆 excel ~ 快學習起來叭，GOGOGO

以上就是Python讀取pdf表格寫入excel的方法的詳細內容，更多關于Python讀取pdf表格寫入excel的資料請關注好吧啦網其它相關文章！

python

上一條：python 合并多個excel中同名的sheet下一條：python 基于UDP協議套接字通信的實現

相關文章：

1. 低版本IE正常運行HTML5+CSS3網站的3種解決方案2. 讀大數據量的XML文件的讀取問題3. 利用CSS制作3D動畫4. JSP的Cookie在登錄中的使用5. html5手機觸屏touch事件介紹6. xpath簡介_動力節點Java學院整理7. 《CSS3實戰》筆記--漸變設計（一)8. 詳解JSP 內置對象request常見用法9. 使用Spry輕松將XML數據顯示到HTML頁的方法10. 測試模式 - XSL教程 - 5

排行榜

					
					java向下轉型基礎知識點及實例
IntelliJ IDEA創建web項目的方法
intellij idea設置統一JavaDoc模板的方法詳解
一個用于MySQL的PHP XML類
python 制作python包,封裝成可用模塊教程
解決python打開https出現certificate verify failed的問題
在Android中使用WebSocket實現消息通信的方法詳解
低版本IE正常運行HTML5+CSS3網站的3種解決方案
利用CSS制作3D動畫
Python生成六萬個隨機,唯一的8位數字和數字組成的隨機字符串實例
ajax請求后臺得到json數據后動態生成樹形下拉框的方法