無料でOCR

昨日書きましたように、仕事関係でもEvernoteを使い始め、スキャナで紙の情報も取り込み始めました。

そうなりますと、紙の情報も検索できるようにしたいと思うのが人情というものです。Evenote自身の画像認識が日本語に対応してくれるのが一番いいのですが、当面望みは薄そうです。

そこで、フリーで使えるOCRソフトが無いか探してみたところ、純粋なOCRで無料というのはなかなか無いものの、こんなのが見つかりました。

 http://xelo.jp/xelopdf/readerzero/index.html

本来はPDFファイルのReaderですが、そちらの用途としては起動するたびに広告が表示されるという時点で却下です。

しかし、画像ファイルをドロップするだけで、それを元にしたPDFファイルが生成できる機能があり、こちらはお手軽に使えて便利です。

更に、そこからOCR機能を動かすと、画像認識したテキストをオーバーレイしたPDFファイルを自動的に生成してくれます。試した範囲では、手書き文字はさすがに苦しいですが、活字を印刷したものならかなりの精度で認識してくれました。十分実用的な精度だと思います。

またOCRの機能を応用しているのだと思いますが、画像ファイルからWordやExcel,PowerPointなどのOfficeファイルを生成する機能もあります。

無料版なので、OCR機能やOfficeファイル生成機能は1日に5ファイルまでしか処理できないようですが、そうそう紙の情報を取り込むものでもありませんので、自分としては十分です。

ただ1つ問題なのは、OCR機能を使うと、生成されるPDFファイルが異常に大きくなることです。試しに45KB程度の白黒印刷文書のスキャンファイルを単純にPDF化したところ、むしろサイズは減って38KBでした。ことろが、それにOCRをかけると、なんとファイルサイズは550KBでした。ヘルプなどを読むと、ページ全体を画像に変換してからOCRにかけるためということのようですが、いくらなんでも10倍以上にも膨れるのは異常な感じがします。

というわけで、このサイズの問題で常時Evernoteと組み合わせて使うわけにはいかなそうです。しかし、OCRの機能自体は簡単に使えて精度も高いので、覚えておいて損はないソフトだと思います。


2010年2月25日 追記)
クセロReader ZEROは2009年7月16日をもって配布終了したようですので、残念ながら現在は使用できません。