nhocrでOCR機能を実験する - にわかエンジニア雑記

覚書

オープンソースのOCRについてはtesseract-ocrまたはNHocrの２つが有名

その中でもGoogle検索から「認識率が高い」との記事がいくつかあったので試しにインストール

cd /usr/local/src/archive
#依存しているO2をインストール
wget http://www.imglab.org/p/O2/archives/O2-tools-2.00.tar.gz
tar xvzf O2-tools-2.00.tar.gz -C ../source

cd ../source/O2-tools-2.00
./configure --prefix=/usr/local/
make install

#nhocrインストール
cd /usr/local/src/archive
wget https://nhocr.googlecode.com/files/nhocr-0.21.tar.gz
tar nhocr-0.21.tar.gz -C ../source

cd ../source/nhocr-0.21
./configure --prefix=/usr/local/
make && make install

これで環境構築は以上。

テストは以下のように実施

cd test
./run-test
fs.pgm: ファイルシステム
hello.pgm: ニんにちは、

tohoku3.pgm:
# Character candidates table
#   produced by: NHocr - Japanese OCR  v0.21
IMG     0
R       1       東      0       0       2.4283356e+00
R       2       束      0       0       2.5794504e+00
R       3       京      0       0       2.7960027e+00
R       4       恵      0       0       2.8455623e+00
R       5       車      0       0       2.8773998e+00

～～～

上記のように表示が出ればOK

次回はHTMLキャンバスから描画した画像をUPして、それをOCR解析します。

http://develop.wcoki.net/canvas/canvas_ocr