文章詳情頁

Java使用Tesseract-Ocr識別數(shù)字

瀏覽：101日期：2022-08-14 10:41:27

前言

Tesseract-Ocr是我在編寫爬蟲項目中，用來識別圖片（不是驗證碼）的本地解決方案（因為客戶不想使用API識別，太貴），識別率目前達(dá)到了100%，可以說是相當(dāng)了得，當(dāng)然了，這取決于使用的traineddata。

簡介

Tesseract最初是在1985年至1994年間在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co開發(fā)的，1996年進(jìn)行了一些更改，移植到Windows，并且隨著C++在1998年興起。2005年Tesseract由惠普開源，然后從2006年至今，由谷歌繼續(xù)開發(fā)。

Tesseract-Ocr并不是一個軟件，它是一個軟件包，包含了一個OCR引擎【libtesseract】和一個命令行程序【tesseract】。Tesseract 4增加了一個基于OCR引擎的新神經(jīng)網(wǎng)絡(luò)（LSTM），該引擎專注于行級識別，但仍然支持Tesseract 3的傳統(tǒng)Tesseract OCR引擎，該引擎通過識別字符模式來工作。

要啟用與Tesseract 3的兼容性，你需要使用Legacy OCR Engine模式（--oem 0）。它還需要支持傳統(tǒng)引擎的traineddata（訓(xùn)練好的數(shù)據(jù)文件），這些文件可以從tessdata存儲庫的文件獲取。

Tesseract支持識別unicode（UTF-8），可以“開箱即用”識別100多種語言。

Tesseract支持多種輸出格式：純文本，hOCR（HTML），PDF，TSV。主分支還具有ALTO（XML）輸出的實(shí)驗支持。

⭐️⭐️⭐️ 具體介紹可以上tesseract-wiki查看。

在Java上使用創(chuàng)建項目，并引入Jar包

Maven

<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.3.1</version></dependency>

Gradle

compile ’net.sourceforge.tess4j:tess4j:4.3.1’導(dǎo)入traineddata

traineddata是使用Tesseract-Ocr訓(xùn)練好的數(shù)據(jù)文件，可以直接使用。這些文件你可以去tessdata存儲庫查找，也可以去谷歌搜索，當(dāng)然了，你也可以自己訓(xùn)練😂。

traineddata通常以*.traineddata命名，其中*指的是支持的語言類型。在這里你可以看到4.0.0版本支持的語言以及traineddata列表。

這次，我們選擇eng.traineddata進(jìn)行測試。下載eng.traineddata放入/resources/traineddata目錄。

編寫測試代碼

初始化Tesseract引擎

public class TesseractTest { private ITesseract tesseract; @Before public void init() {tesseract = new Tesseract();System.out.println('tesseract init done...'); }}

實(shí)際上，上面的代碼是無法正常運(yùn)行的，因為找不到指定語言版本的traineddata文件。

net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好，在Tesseract構(gòu)造函數(shù)中，沒有提供可選參數(shù)的構(gòu)造器。

public class Tesseract implements ITesseract { // Tesseract使用的語言版本，用以選擇traineddata private String language = 'eng'; // traineddata目錄，里面放*.traineddata數(shù)據(jù)文件 private String datapath; // 省略其他代碼 ... public Tesseract() {try { // 默認(rèn)從系統(tǒng)環(huán)境變量獲取traineddata目錄 datapath = System.getenv('TESSDATA_PREFIX');} catch (Exception e) { // ignore} finally { if (datapath == null) {datapath = './'; }} }/** * Sets language for OCR. * * @param language the language code, which follows ISO 639-3 standard. */ @Override public void setLanguage(String language) {this.language = language; }/** * Sets path to <code>tessdata</code>. * * @param datapath the tessdata path to set */ @Override public void setDatapath(String datapath) {this.datapath = datapath; }// 省略其他代碼 ...}

所以，我們可以選擇設(shè)置環(huán)境變量TESSDATA_PREFIX為數(shù)據(jù)目錄，或者通過Java編碼的方式來設(shè)置。

tesseract.setLanguage('eng'); // 默認(rèn)就是eng，你可以選擇其他langtesseract.setDatapath(TesseractTest.class.getResource('/traineddata').getPath().substring(1));

OCR識別測試tesseract提供了一系列doOcr方法的重載，我們可以方便的進(jìn)行OCR識別。

String doOCR(File imageFile) throws TesseractException;String doOCR(File imageFile, Rectangle rect) throws TesseractException;String doOCR(BufferedImage bi) throws TesseractException;String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;

可以看出，doOcr方法支持多種圖片識別方式，如圖片文件、多個圖片文件、圖片文件局部處理等等方式。

為了方便測試，我們選取最簡單的圖片文件方式測試。

圖片是個URL鏈接，如下所示

Java使用Tesseract-Ocr識別數(shù)字

@Testpublic void testOcr() throws IOException, TesseractException { BufferedImage image = ImageIO.read(new URL('http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png')); String ocr = tesseract.doOCR(image); System.out.println('ocr result : ' + ocr);}

控制臺輸出：

tesseract init done...ocr result : 2710386495

識別準(zhǔn)確率，主要在于你選擇的訓(xùn)練數(shù)據(jù)文件，我使用的是數(shù)據(jù)文件是這個，對于數(shù)字的準(zhǔn)確率基本上是100%。

異常如果你遭遇Invalid memory access異常，這是由于找不到對應(yīng)lang的*.traineddata文件，請修改language和datapath。

Invalid memory accessjava.lang.Error: Invalid memory accessat com.sun.jna.Native.invokePointer(Native Method)at com.sun.jna.Function.invokePointer(Function.java:470)at com.sun.jna.Function.invoke(Function.java:404)at com.sun.jna.Function.invoke(Function.java:315)at com.sun.jna.Library$Handler.invoke(Library.java:212)at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258) ...訓(xùn)練工具

https://github.com/tesseract-ocr/tesseract/wiki/AddOns

訓(xùn)練數(shù)據(jù)倉庫 tessdata_best：基于LSTM引擎的訓(xùn)練數(shù)據(jù)，最佳最準(zhǔn)確的 tessdata_fast：基于LSTM引擎的訓(xùn)練數(shù)據(jù)，快速（精簡）版本 tessdata：支持雙引擎（LSTM和傳統(tǒng)引擎），但LSTM訓(xùn)練數(shù)據(jù)不是最新的版本

推薦使用tessdata_best，雖然識別速度相對于tessdata_fast稍慢，但是準(zhǔn)確率可以保證。

參考

tesseract-ocr-wiki

以上就是Java使用Tesseract-Ocr識別數(shù)字的詳細(xì)內(nèi)容，更多關(guān)于Java 識別數(shù)字的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Java

上一條：Java基礎(chǔ)之容器Vector詳解下一條：java方法實(shí)現(xiàn)簡易ATM功能

相關(guān)文章：

1. 用xslt+css讓RSS顯示的跟網(wǎng)頁一樣漂亮2. 使用Spry輕松將XML數(shù)據(jù)顯示到HTML頁的方法3. CSS3實(shí)現(xiàn)動態(tài)翻牌效果仿百度貼吧3D翻牌一次動畫特效4. 存儲于xml中需要的HTML轉(zhuǎn)義代碼5. 讀大數(shù)據(jù)量的XML文件的讀取問題6. 利用CSS制作3D動畫7. HTML5 Canvas繪制圖形從入門到精通8. html5手機(jī)觸屏touch事件介紹9. 讓chatgpt將html中的圖片轉(zhuǎn)為base64方法示例10. 《CSS3實(shí)戰(zhàn)》筆記--漸變設(shè)計（一)

排行榜

					
					IntelliJ IDEA創(chuàng)建web項目的方法
Sun討論修改Java許可證 新CEO可能開放源碼
在Android中使用WebSocket實(shí)現(xiàn)消息通信的方法詳解
Gitlab CI-CD自動化部署SpringBoot項目的方法步驟
解決python打開https出現(xiàn)certificate verify failed的問題
深入理解java異常處理機(jī)制
python 制作python包,封裝成可用模塊教程
idea2020.1最新版永久破解/pycharm也可用(步驟詳解)
利用CSS制作3D動畫
Python生成六萬個隨機(jī),唯一的8位數(shù)字和數(shù)字組成的隨機(jī)字符串實(shí)例
ajax請求后臺得到j(luò)son數(shù)據(jù)后動態(tài)生成樹形下拉框的方法