ドコモが開発した、写真などの複雑な画像からでも文字を認識できる技術がAPIの形で12月より一定期間無償提供へ。IMEアプリもリリースへ

GAPSIS編集部 2011年10月5日

このような写真画像でも、「熊本空港警備派出所」や
「Kumamoto Airport Police Station」などの文字を
認識できる。

NTTドコモは5日、写真などの画像から、その中に写っている文字を認識できる独自技術を開発したと発表した。さらに、同社はこの技術をアプリやウェブサービスへの活用ができるように、API（アプリケーション・プログラミング・インターフェース）として、12月1日から2012年5月末まで無償でトライアル提供する。5日より利用申込みの受付も開始された。

同社が開発した技術は、高精度で文字を認識できることが特徴。従来技術では、風景写真のように複雑な画像に含まれる文字の認識は困難だったが、同社の技術では、膨大な単語データベースと文字の並びを照合し、文字以外の不要な部分を除去しつつ、誤った結果の訂正を行うことで精度の高い認識を実現した。

現時点で100万語を超える単語の検出が可能となっており、今後も順次拡大される。

技術者はAPIを利用することで、この文字認識技術を自らのアプリやサービスへ組み込むことができる。12月1日から提供が始まるトライアル期間中に集まった利用者からの意見・要望を取り入れ、改善を図り、将来の商用提供に向けた開発が進められる。

また、NTTドコモは、本APIを活用したサービスの一例として、スマートフォンのカメラを文字にかざすことで、文字の認識機能を試すことのできるアプリを12月にリリースする。認識された文字はテキストデータとして抽出され、他のアプリなどでの文字入力などに使うこともできる。OCRを活かした文字入力アプリ（IME）だ。