Google DocsのOCRが日本語に対応したというので試してみた

Google DocsのOCR(光学式文字認識)機能が、日本語にも対応したというので、早速試してみましたよ。

に実装されたという話を聞いた時は、日本語の対応はいつくらいになるだろうなぁ・・・と思っていたんですよね。

対応されたOCR機能は、アップロード時のみに利用出来るもので、元々アップしてあるPDFや画像ファイルには適用されません。

アップロード時に、「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」にチェックを入れてやれば適用されます。

で、試しにPagesでPDFを作成してアップしてみたんですが、

えっ、何これ? 何で文字化け? テキストの原型すらないわー。
何でしょうね、Pagesで作ったからなのかなぁ・・・。

仕方ないので、キャプチャした画像をアップロードしてみました。

お、今度は文字化けしなかった。
しかし、句読点が漢字になっていたりと、変換具合がちと微妙。

フォントの関係もあるのかな?
解析しやすいフォントと解析しにくいフォントとかあるのかも。
このあたりはおっかけ精度が高まっていくんでしょう。

にしても、なんでPDF文字化けちゃったんだろうなぁ。
今回、Pagesで直接PDFを書き出したんですが、もしかしたらAcrobatで変換すれば問題ないのかもしれませんね。

あ、因みにGoogle AppsのDocsでもOCR機能が実装されてました。
今回の実験はAppsのDocsでやってます。

「小ネタ」新着記事

猫足になりたい人必見のソックス「能ある猫は、爪隠す」の靴下猫バージョンがちょっと欲しい

ホシナ カズキ

「この夏絶対流行する! エスニック食」ランキング 1位はビリヤニ

ホシナ カズキ

「シン・エヴァンゲリオン劇場版」がこどもの日に合わせて「初号機かぶと」なんてものを公開していた

ホシナ カズキ

Linkedinが「TOP COMPANIES 2021年版」のトップ25を発表

ホシナ カズキ

アメリカでピザ自販機「Piestro」が登場

ホシナ カズキ

もっと見る

モバデビはモバイルやウェブのネタ、ニュースMaciPhoneなどのApple関連、WordPressのことなど、いろいろ書く雑食系ブログメディア。
ためになるかもしれないし、ならないかもしれない。そこそこ更新してますそこそこ。

このブログについてもっと詳しく