Google DocsのOCRが日本語に対応したというので試してみた
Google DocsのOCR(光学式文字認識)機能が、日本語にも対応したというので、早速試してみましたよ。
に実装されたという話を聞いた時は、日本語の対応はいつくらいになるだろうなぁ・・・と思っていたんですよね。
対応されたOCR機能は、アップロード時のみに利用出来るもので、元々アップしてあるPDFや画像ファイルには適用されません。
アップロード時に、「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」にチェックを入れてやれば適用されます。
で、試しにPagesでPDFを作成してアップしてみたんですが、
えっ、何これ? 何で文字化け? テキストの原型すらないわー。
何でしょうね、Pagesで作ったからなのかなぁ・・・。
仕方ないので、キャプチャした画像をアップロードしてみました。
お、今度は文字化けしなかった。
しかし、句読点が漢字になっていたりと、変換具合がちと微妙。
フォントの関係もあるのかな?
解析しやすいフォントと解析しにくいフォントとかあるのかも。
このあたりはおっかけ精度が高まっていくんでしょう。
にしても、なんでPDF文字化けちゃったんだろうなぁ。
今回、Pagesで直接PDFを書き出したんですが、もしかしたらAcrobatで変換すれば問題ないのかもしれませんね。
あ、因みにGoogle AppsのDocsでもOCR機能が実装されてました。
今回の実験はAppsのDocsでやってます。