nhocrでOCR機能を実験する
覚書
オープンソースのOCRについてはtesseract-ocrまたはNHocrの2つが有名
その中でもGoogle検索から「認識率が高い」との記事がいくつかあったので試しにインストール
cd /usr/local/src/archive #依存しているO2をインストール wget http://www.imglab.org/p/O2/archives/O2-tools-2.00.tar.gz tar xvzf O2-tools-2.00.tar.gz -C ../source cd ../source/O2-tools-2.00 ./configure --prefix=/usr/local/ make install #nhocrインストール cd /usr/local/src/archive wget https://nhocr.googlecode.com/files/nhocr-0.21.tar.gz tar nhocr-0.21.tar.gz -C ../source cd ../source/nhocr-0.21 ./configure --prefix=/usr/local/ make && make install
これで環境構築は以上。
テストは以下のように実施
cd test ./run-test fs.pgm: ファイルシステム hello.pgm: ニんにちは、 tohoku3.pgm: # Character candidates table # produced by: NHocr - Japanese OCR v0.21 IMG 0 R 1 東 0 0 2.4283356e+00 R 2 束 0 0 2.5794504e+00 R 3 京 0 0 2.7960027e+00 R 4 恵 0 0 2.8455623e+00 R 5 車 0 0 2.8773998e+00 ~~~
上記のように表示が出ればOK
次回はHTMLキャンバスから描画した画像をUPして、それをOCR解析します。