Google DocsのOCRが日本語に対応したというので試してみた

Google DocsのOCR(光学式文字認識)機能が、日本語にも対応したというので、早速試してみましたよ。

2010年6月に実装されたという話を聞いた時は、日本語の対応はいつくらいになるだろうなぁ･･･と思っていたんですよね。

対応されたOCR機能は、アップロード時のみに利用出来るもので、元々アップしてあるPDFや画像ファイルには適用されません。

アップロード時に、「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」にチェックを入れてやれば適用されます。

で、試しにPagesでPDFを作成してアップしてみたんですが、

えっ、何これ? 何で文字化け? テキストの原型すらないわー。
何でしょうね、Pagesで作ったからなのかなぁ･･･。

仕方ないので、キャプチャした画像をアップロードしてみました。

お、今度は文字化けしなかった。
しかし、句読点が漢字になっていたりと、変換具合がちと微妙。

フォントの関係もあるのかな?
解析しやすいフォントと解析しにくいフォントとかあるのかも。
このあたりはおっかけ精度が高まっていくんでしょう。

にしても、なんでPDF文字化けちゃったんだろうなぁ。
今回、Pagesで直接PDFを書き出したんですが、もしかしたらAcrobatで変換すれば問題ないのかもしれませんね。

あ、因みにGoogle AppsのDocsでもOCR機能が実装されてました。
今回の実験はAppsのDocsでやってます。