Special Articles

柔軟な文字認識を実現するドコモのAI-OCR

文字認識 AI OCR

川波 稜(かわなみ りょう)
福島 悠介(ふくしま ゆうすけ)

サービスイノベーション部

あらまし
申込書・領収書などの文書の文字をデジタル化する技術としてOCRがある.従来のOCRには定型の読取り箇所の認識に限定されるという課題があったが,昨今ではDeep LearningベースのAI-OCRにより,不定形な読取りへ対応し,場所に限定されない柔軟な文字の認識が可能となった.一方,日本語におけるOCRは漢字,ひらがな,カタカナという無数の組合せをもつため文字の認識が困難であり,加えて手書きの文字への対応となるとさらに誤認識する確率は大きくなる.ドコモでは,より柔軟かつ高精度に日本語対応可能なAI-OCR技術の開発に取り組んでいる.本稿では,ドコモが開発しているAI-OCR技術の仕組みを解説し,その導入事例を紹介する.

01. まえがき

  • OCR(Optical Character Recognition/Reader)は,紙や他の媒体に印刷された ...

    開く

    OCR(Optical Character Recognition/Reader)は,紙や他の媒体に印刷されたテキストを画像中から読み取り,デジタルデータに変換することを可能にし,実空間における文字情報へのアクセシビリティと処理の効率を飛躍的に向上させている.従来のOCRでは,あらかじめ定められた文字領域を指定しておき,その領域の文字を認識する手法が主流であった.しかし,深層学習(Deep Learning)*1を用いて文字読取りの柔軟性を向上させたAI-OCRの登場により,不定形な文字領域の読取りにも対応し,事前に指定を必要としない文字の認識が可能となった.

    一方,言語としての多様性と複雑性が高い日本語は,漢字,ひらがな,カタカナという異なる文字システムを持ち合わせており,これらの文字は形状が複雑で多様である.特に,漢字は数万種類に及び,ひらがな,カタカナとの組合せとなれば,そのパターンは無数に存在する.加えて英語と比較して単語との間にスペースがなく,縦書きで書かれる場合もある.これらの特徴により,日本語のOCR処理では英語や他のラテン文字ベースの言語よりも読取りと認識が困難である.

    そこでドコモでは,AI-OCRをベースとした柔軟かつ高精度な日本語対応の文字読取り技術を開発しており,文書の読取りに限らない複数の事例にて活用している.

    本稿では,ドコモが取り組むAI-OCR技術の仕組みを述べ,その導入事例について解説する.

    1. 深層学習(Deep Learning):脳の神経回路の仕組みを模したニューラルネットワークを多層に重ねることで,学習能力を高めた機械学習の手法の1つ.

02. AI-OCRの仕組み

  • 一般的にAI-OCRは,図1に示すとおり「文字検出」と「文字認識」という2つの ...

    開く

    一般的にAI-OCRは,図1に示すとおり「文字検出」と「文字認識」という2つの処理から構成される.

    図1 AI-OCRのプロセス

    2.1 文字検出

    文字検出は,文字を含む画像から文字領域を検出する処理である.従来のOCRでは,あらかじめ定められた文字領域を指定しておき,その領域に対して後段の文字認識を行うことで実現していた.

    一方,AI-OCRでは,正解データである任意の文字領域をパターンとしてAIに学習させることで,事前に指定せずとも文字領域の検出を可能とする.また,全文字を検出するのではなく特定の認識したい文字領域を学習することも可能となる(図2).これにより,柔軟かつ汎用的な文字領域の検出を可能とする.

    図2 AI-OCRを活用したドコモエンジンによる認識結果

    2.2 文字認識

    文字認識は,前述の文字検出で検出した領域内の文字を認識する処理である.従来のOCRでは日本語の語彙が膨大なこともあり,隣接する文字との関係性を考慮した認識は困難であったが,AI-OCRでは,文字列パターンを捉えた学習が可能となり,例えば,数字列の中の0(ゼロ)と英字として書かれたO(オー)など,見た目はほぼ同じである文字を区別した認識が可能となる.

03. ドコモのAI-OCR技術の特長

  • 3.1 独自データをベースとしたチューニングによるカスタマイズ性

    開く

    柔軟な文字認識をめざすドコモのAI-OCR技術の強みとして,モデルチューニングによるカスタマイズ性がある.文字は現実空間の至る所に存在するものの,多くのケースでは,文字を読み取りたい箇所は注目する特定の文字領域のみであり,それ以外の文字領域を読み取ってしまうと不要な情報となってしまう.従来では画像中に写り込んだすべての文字の中から,注目する特定の文字領域のみを検出・認識することは困難であった.そこで,ドコモが開発したAI-OCRエンジンの「文字検出」「文字認識」モデルをfine-tuning*2することにより,読み取りたい箇所や適用したい文字のみを検出・認識させることが可能となる(図3).

    また,「文字検出」「文字認識」モデルは,あらかじめ漢字,ひらがな,カタカナの無数の組合せをもつ日本語データへ対応できるよう,独自データで事前学習されている.この事前学習モデルをベースにfine-tuningすることで,認識したいドメインに対してより精度の高い文字の認識が可能となる.

    図3 モデルチューニングのプロセス

    3.2 機能的特長

    ドコモで開発しているAI-OCR技術の3つの特長について解説する.

    (1)縦書き文字対応

    ドコモのAI-OCR技術は,図4左に示すように日本語特有の縦書き文字に対応している.想定される利用シーンとしては,本棚に配置されている本の背表紙や路上などに設置されている看板などの認識である.

    (2)回転文字対応

    また,図4右に示すように回転している文字の検出にも対応している.実空間で撮影される文字が水平であることはまれである.ドコモのAI-OCR技術では,このような空間中にあるさまざまな向きの文字の認識を可能としているため,文字の向きによらない,あらゆるシーンに適用可能である.

    (3)手書き文字対応

    最後に,図5に示すように,手書き文字の認識に頑健である.ドコモのAI-OCR技術では,手書きの帳票などに対しても認識の適用を可能とするため,手書き文字データを含む独自データセットで学習させた高精度な文字認識モデルとなっている.これにより,活字にも手書き文字にも頑健なAI-OCRを実現している.

    これらの特長により,文書に限らない環境における文字の認識にも対応可能となる.

    図4 縦書きと回転した文字列の認識結果、図5 手書き文字列の認識結果
    1. fine-tuning:あるデータセットを使って事前学習(Pre-training)した学習済みモデルの一部もしくは全体を,別のデータセットを使って再学習することで,新しいタスク向けに機械学習モデルのパラメータを微調整すること.

04. 導入事例

  • ドコモのAI-OCR技術の導入事例について紹介する.これまでドコモでは ...

    開く

    ドコモのAI-OCR技術の導入事例について紹介する.これまでドコモでは前述のカスタマイズ性を活かし,AI-OCRエンジンの幅広い領域への導入を行ってきた.文字認識のユースケースには,ドコモ画像認識プラットフォーム[1]への組込みのほか,さまざまな事例があるが,ここでは2つの導入事例について紹介する.

    4.1 値札認識

    ドコモのAI-OCR技術が値札の文字認識に利用された例として,棚SCAN-AI[2]にドコモのAI-OCR技術を組み合わせた事例を紹介する.なお棚SCAN-AIは,ドコモのAI技術と株式会社サイバーリンクスの商品画像データベースを用いて,スマートフォンなどで撮影した売場棚割画像から商品の配置を判別し,店頭陳列(棚割)*3のデータ化を行い,店頭分析や棚割システム連携を行うことができるサービスである[2].この棚SCAN-AIにAI-OCR技術を適用することにより,例えば自動販売機を撮影した画像から各商品の価格を読み取ることができ,容易に価格情報をデータ分析することなどを可能にした(図6).

    図6 棚SCAN-AIへの値札認識機能の提供

    4.2 ゼッケン読取り

    ドコモのAI-OCR技術は,マラソンのようなスポーツイベントなどで使用されるゼッケンの読取りにも活用されている.株式会社マチエミが提供する写真販売システムであるEMii PicLab–エンタープライズプラン[3]において,競技者を特定する機能やボケ・ブレが生じた販売対象とならない写真を弾く機能を,ドコモの画像認識エンジンが提供している.この中の競技者を特定する機能においてAI-OCRエンジンが活用されており,撮影された写真中のゼッケン番号をAI-OCRにより自動で認識することで,ゼッケン番号に紐づいた競技者を特定する.競技中に撮影されたすべての写真についてこの競技者特定処理が行われ,後日当該の競技者にそれぞれ販売される仕組みとなっている(図7).これにより,今まで写真を見て競技者を特定するという人的稼働の削減を実現することができた.

    図7 写真販売システムへのゼッケン読取り機能の提供
    1. 店頭陳列(棚割):商品棚にてどの商品がどの位置に陳列されているかのレイアウトを指す.

05. あとがき

  • 本稿では,言語の多様性と複雑性が高い日本語へ対応するため,ドコモが取り組む ...

    開く

    本稿では,言語の多様性と複雑性が高い日本語へ対応するため,ドコモが取り組む柔軟なAI-OCRの機能的特長およびチューニングによるカスタマイズ性を解説した.また値札認識やゼッケン読取りにおける本技術の導入事例について紹介した.従来OCRが対象としてきた文書認識に限られないこれらの事例は,ドコモの柔軟なAI-OCR技術がさまざまな分野で活用可能であることを示している.今後のデジタル社会において,より多くの場面でOCRを使用されることが期待されるため,ニーズに即した機能開発を行い,サービスの提供価値向上に向けた取組みを行っていきたい.

このページのトップへ