AI-OCRってなに?(その2)

2021/02/05

前回に引続き、AI-OCR について説明していきます。
前回はOCRについてお話ししましたが、今回は、AI、ディープラーニングについての基本から、AI-OCR の特徴などをご紹介します。

AIとは

AI(”Artificial Intelligence”, 人工知能)とは、人工知能研究の第一人者と呼ばれ、AIの名付け親ともいわれる John McCarthy によれば「知的な機械,特に,知的なコンピュータプログラムを作成するための科学と技術。コンピュータを使用することで人間の知能を理解することと関係あるが、自然界の生物が行う知的手段だけに研究対象を限定するものではない。」 [*3] ということです。正直、良くわからないですね。実際、AIの定義は立場によっていろいろあり、一つには決まっていないようです。ここでは、AI-OCR に関係する基本的な部分を見ていきます。

(1)AIの歴史

AIに関連する研究はいろいろ行われていましたが、AIという名称が初めて使われたのは、1956年に開催されたダートマス会議  [*4] と呼ばれるワークショップでのことです。これを契機に第1次AIブームが起こりました。「人工知能は実現できる」という見通しのもと、「推論」と「探索」に関する多くの研究が行われました。「推論」とは、人間の思考の過程を記号を使って表現しようするものです。また、「探索」とは、問題の解き方をパターンごとに分類して解答を探すプロセスのことです。これらの研究により、難しい迷路やパズルなどをコンピュータで短時間に解けるようになりましたが、ゲームのような決められたルールの中での解答を探すような限定された応用の範囲に留まり、1960年代の終わり頃には下火になっていきました。
第2次AIブームは、1980年代に起こりました。このときは「知識」をコンピュータに取り入れる研究が進められ、医療や法律、金融、人事などの専門知識を備えた多くの「エキスパートシステム」が作られました。しかし、これらにも限界があり、人間が持つ知識を表現し、溜め、利用することの難しさから、また下火になってしまいました。
2000年代になり、人間の脳の構造を模したニューラルネットワークが実用できるようになってきたこと、ビッグデータと呼ばれる大量のデータが扱えるようになり、それを使った機械学習と呼ばれる手法が拡がったことで、第3次AIブームが起こりました。ディープラーニングと呼ばれる機械学習のひとつの手法も一般化し、それに引っ張られるかたちで現在までブームが続いています。以下、その第3次AIブームの基となったニュートラルネットワークについて説明していきます。

(2)ニューラルネットワーク

人間の脳は、1,000億個程度のニューロン(”neuron”, 神経細胞)で構成されたネットワークからなり、シナプス(synapse)と呼ばれる接続でシグナルを伝達することで脳の機能を実現しています。この構造を模して、人工的にコンピュータ上に作ったもの(数学モデル)がニューラルネットワーク(neural network)です。

   

ニューロンのように複数(多数)の入力を持ち、それぞれに重み付けをした計算をして出力するものをパーセプトロン(”perceptron”、「単純パーセプトロン」ともいう)、その集まりをレイヤ(layer)と呼び、ニューラルネットワークはレイヤを多層化することで構成されます。データの入口にあたるレイヤを入力層(input layer)、結果を取り出す出口にあたる部分を出力層(output layer)、その間にあるものを中間層(intermediate layer)または隠れ層(hidden layer)といいます。

ニューラルネットワークから正しい答えを得るために、前述の重み付け計算の重みを調整します。人間と同じように経験に基づいてその調整を行うことを学習と呼び、AIまたはニューラルネットワークが自ら自律的に学習することを機械学習(machine learning)といいます。(機械学習はAIには限らない)

ディープラーニング

ニューラルネットワークの中間層を複数の層として多層化し、機械学習により学習させるものをディープラーニング(深層学習)といいます。ニューラルネットワーク自体は1940年代に提唱されていましたが、ここ10年、AIを実用的にしたものが、このディープラーニングです。

機械学習の方法としては、入力データと正解を与えて学習させる「教師あり学習」、入力データだけを与えて、入力データの中にある規則性やデータどうしの関連性を学習させる「教師なし学習」(正解を与える必要がないので、学習データの用意が容易になります)、出力結果に点数をつける(報酬を与える)ことで最善の方法を学習していく「強化学習」(最終的な正解がわからなくても学習させることができます)があります。ディープラーニングでは、主に教師あり学習が用いられます。
ディープラーニングの登場により、より複雑な判断が可能になったばかりではなく、データのどこに注目するべきか、データにはどのような特徴があるかなどを人手を介さずに自動的に判断できるようになり、人間には気が付かない注目点、特徴を見つけ出すこともできるようになりました。ビッグデータと呼ばれる大量のデータが扱えるようになり、インターネットや携帯電話の普及で入手もしやすくなった現在、ディープラーニングの有効性がますます高まってきています。
ディープラーニングは、画像認識(顔認証、自動運転、工業製品の品質チェック、農作物のランク分け、OCR)、音声認識(チャットボット[自動会話]、自動翻訳、コールセンターにおける状況分析、Siri, Alexa のような自動会話サービス)、テキスト分析(医療における症状分析と病理判断、SNSのデータ分析)などの他、株価の予測などにすでに応用されており、これでもほんの一部と言えるほど多方面に広がっています。

AI-OCR

ディープラーニングをOCRの変換処理に利用したものが AI-OCR です。入力は読み込んだ画像の画素、出力は認識された文字になります。ディープラーニングを利用することで、これまでのOCRが特徴抽出やそのマッチングなど人が統計的な情報を元にアルゴリズム(処理手順)を作っていたのに対し、ニューラルネットワークが自ら学習し、認識率(正しく変換する確率)の向上を図っていくようになりました。つまり、学習データ(通常は正解も含む)を大量に与えることで認識率を上げることができるようになったということです。

AI-OCR は、これまでのOCRと比較して以下のような特徴があります。

  • 自律的に学習するため、ある程度学習した後でも、変換処理を繰り返すことで認識率が向上します。通常のOCRは、一度作ってしまうと、人が改良を施さない限り認識率は向上しません。

  • ディープラーニング(ニューラルネットワーク)といっても、それぞれの処理に適した型がいろいろあります。処理についての詳細は省略しますが、AI-OCR では、画像・特徴抽出に適した CNN(”Convolution Neural Network”、畳み込みニューラルネットワーク)、文字列や文章(音声・動画)の認識に適した RNN(”Recurrent Neural Network”、再帰型ニューラルネットワーク)を組み合わせて利用することで、それぞれの処理精度を向上させることができます。また、これらに GAN(”Generative Adversarial Network”、敵対的生成ネットワーク)と呼ばれるものを組み合わせることで、教師なし学習によっても効果を上げることができるようになります。

  • フォーム処理が不要になります。文字列や文字の切出し、変換対象の設定などもディープラーニングにより自律的に学習されます。例えば、「氏名」「住所」「電話番号」という文字列が出現した場合は、横書きの場合、その右側に認識対象の文字が書かれていると判断して良い場合が多くあります。これにより、新しい帳票を変換したい場合でも、対象を自動的に認識し、さらにそのフォームを学習させることができるので、これまでのように新たにフォーム定義する必要がなくなります。究極的には、帳票OCRと全文OCRを区別することなく、必要な変換処理が実現できるようになります。

  • 手書き文字の認識率が高くなります。これまで困難であった手書き漢字の認識も、ディープラーニングで学習を重ねることにより認識率が向上します。特に、同じ人の文字の認識処理を重ねることで、その人の「くせ文字」も学習させることができ、認識できるようにできます。

  • 多くの処理をこなすことで、認識率が向上します。同じ AI-OCR 製品を利用しているユーザによる学習結果を共有することができるので、さらに学習機会を増やし、変換精度向上を図ることができます。

  • これは AI-OCR の特徴ではありませんが、最近のクラウドサービスの普及に合わせて、 AI-OCR もクラウドサービスとして利用できるようになっています。これまでのOCRは、通常、オンプレミスとして自社内のサーバなどにインストールして利用することはほとんどでした。AI-OCR は通常のOCRよりコストが高いことが導入のハードルとなっていましたが、クラウドでの利用という選択肢があることでそのハードルを下げることができます。さらに、クラウドサービスで多くのユーザが同じエンジン(AI-OCR)を利用して学習回数を増やすことで、文字種やくせ字、多くのフォームの学習を重ねて変換精度を向上させることが期待できます。

AI-OCR にも良いところばかりではなく、未学習(学習していない)や過学習(または「過剰適合」、データ不足やデータの偏り)といった問題が起きることがあります。これらの対策も、精度維持に重要なものとなります。

おわりに

AI-OCR を利用することで、これまでのOCRを利用する以上に、画像データから文字データへの変換が精度良く行えるようになります。AI-OCR は既に実用の領域に入っており、さらに進化を続けています。 RPA との組み合わせでは一般的に親和性も高く、事務処理の効率化に貢献しています。弊社のように電子化・索引付けサービスを提供している企業においては、サービスの提供コストを低減させる可能性もあります。
紙で受け取る請求書や領収書の処理など、紙文書の処理に困っている場合は、是非一度検討してみてください。

 

——————————————————————————
*3 ”It is the science and engineering of making intelligent machines, especially intelligent computer programs. It is related to the similar task of using computers to understand human intelligence, but AI does not have to confine itself to methods that are biologically observable.”
「 WHAT IS ARTIFICIAL INTELLIGENCE? 」 John McCarthy (Nov 12, 200) より
*4 1956年夏にアメリカのダートマス・カレッジで開催された人工知能に関する研究会 “The Dartmouth Summer Research Project on Artificial Intelligence”。ロックフェラー財団から財政的援助を受け,人工知能研究に関する各種議論が行われた。

関連記事

三井倉庫のスマート書庫 すましょ

本サイト「すましょの鍵」における情報提供は三井倉庫ビジネスパートナーズによって提供されています。

もう今までの書類や文書の整理とはおさらば。ビジネスを加速させる専効率的な書類管理などオフィスにおける書類や文書の保管方法など、あらゆる観点で記事を更新しております。三井倉庫ビジネスパートナーズでは「スマート書庫」というサービスをご提供しており、1箱からでも預入れができる文書保管サービスとなっております。事業規模にかかわらず気軽にご利用いただけます。個人事業主の方もOKです。保管料は1箱あたりたったの100円。初回預入費用は800円。シンプルな料金体系で、大変ご好評をいただいています。あるべき文書管理体制の構築に向けて、お客様のご事情に合わせた適切な文書管理形態ならびに文書管理プロセスをご提案いたします。

2020 MITSUI-SOKO BUSINESS PARTNERS CO.,LTD.ALL Rights Reserved.