エントリー?OCR?画像になった文字データの活用
2022/06/29
社内にある紙文書を電子化する場合、多くの場合スキャンをしたりデジタルカメラで複写をします。スキャンや複写をしたデータの多くはjpegやping、tiff、PDFといったイメージデータで保存される場合がほとんどです。画像化された文書を「見る、読む」ということであれば、これで十分です。
しかし、jpeg、ping、tiff、PDFといったフォーマットになっていると書かれている文字を文字のデータとして利用することができません。つまり文字を編集したり、コピーして別の文書に使用する、ということができないのです。(#PDFの場合、ワードなどの文字データをPDF化したときには、文字のコピーや編集は可能になります。)
では、そこに書かれている文字データを使いたい場合はどうしますか?
この記事では、画像化された文字データを使えるようにする方法とその注意点を紹介します。
Contents
◇エントリーによる文字起こし
エントリーとは画像の文字を見ながら、そのままキーボードを使って文字として打ち込むことを言います。パンチ作業ということもあります。エントリーについて、簡単な歴史とエントリーの方法について説明します。
▼エントリー業界とは
デジタルによるデータ処理が主流になって以降、様々な申込書など紙に書かれた文書をデジタル処理する必要が出てきました。例えば、紙の申込書に書かれている名前や住所を文字データに変換しなければならなかったのです。
このテキストデータに変換する作業、すなわちキーボードを使って一文字ずつパンチしていく、という作業を請け負う企業が生まれてきたのです。紙の文書を見ながら、数字から漢字まで一文字ずつパンチするという作業は、非常に根気のいる作業で間違いも許されません。百人以上の作業者が、一つの部屋で紙と画面を見ながら文字を打ち込んでいる光景は想像しづらいものです。
当初は日本国内で作業を行っていたのですが、徐々に海外でパンチ作業をするというオフショアが一般的になってきました。文書をスキャンしてその画像データを海外に送り、海外のオペレーターが画像を見ながらパンチ作業をするという仕組みです。この場合、紙のやり取りはなく、画像(イメージ)を見ながらエントリーをするので「イメージエントリー」という言葉が出てきました。
最近は、申し込みに必要なデータもネット上でできるようになってきたので、エントリーという業務は減少してきています。また、個人情報などセキュリティーの問題もありエントリー業界の仕組みも変わってきています。
▼イメージエントリーを使った文字起こしの方法
パソコンを使った簡単なイメージエントリーの方法を紹介しましょう。
①パソコンに画像データと、ワードなどの入力用の画面をそれぞれ立ち上げる。
②それぞれを縮小して、画面の左半分には画像、右半分には入力用の画面を設定する。
③この状態で左の画像を見ながら、右のワード画面に文字を正確にパンチする。
モニターが二つある場合は、モニターの拡張機能でそれぞれの画面に別々に表示することも可能ですが、右と左の距離が大きく、長時間の作業にはおすすめできません。できるだけオリジナルの画像上の文字と打ちこむ文字が、近い位置にある方がミスの減少につながります。
データエントリーの業界は、実際には専用のソフトを使っていますが、そのソフトも画面の左側にオリジナルの文字画像、右側に入力スペースがあります。
▼入力をより正確に行う方法
一人でパンチ業務を行っていると、どんなに慎重に入力をしていても必ずミスが発生します。漢字の間違い、文字抜け、数字の間違い、行の二度入力や抜け、などは必ず発生すると言っていいでしょう。
これは専門のエントリー会社でも同じです。
このミスを減らすためにダブルエントリーという方法でミスを減少させています。その方法は下図の通りです。
AさんとBさんは同じ文章を入力します。AさんとBさんの入力したデータはCさんに送られます。
CさんはAさんとBさんの入力データを比較して、二人のデータの違うところがあれば文字画像を確認して正しい文字を入力します。AさんとBさんのデータが同じであれば、正しい文字が入力されていると判断します。
▼エントリーによる文字起こしの問題点
エントリーによる文字起こしの一番大きな問題はコストがかかることです。
エントリー会社に外注すると1文字あたり、0.5円程度と言われています。一方、自社で入力をしていく場合、精度を求めなければ一人で作業することも可能ですが、正確な文字起こしを求めるなら2.5人程度の労力が必要になってしまいます。
求める精度と文字起こしをする分量を勘案して自社作業、外注という方法を検討してみてください。
◇OCRによる文字起こし
OCRはOptical Character Reader(recognition)の略で、文字を光学的に認識して文字コードに変換する機能のことです。
入学試験などで解答欄に鉛筆でマークしてデータを読み取る仕組みがありますが、これはOMRといってOCRとは異なるものです。
OCRは電子化された文書の中の文字情報を読み取るために、データエントリーと同様に有効な方法になります。もう少し詳しくOCRについて説明していきましょう。
▼OCRを試してみる
言葉で説明してもなかなか理解できないかもしれません。そこで、無料のOCRのソフトを使ってjpgデータに変換された文字データの読み取りを試してみました。
下の図は「すましょの鍵」の「解説! 失敗しないスキャンのコツ」の冒頭部分をjpgにしたものです。
この画像データをOCRで処理するとどうなるのでしょう。下図をご覧ください。
この比較をみると文章はかなり正確に文字として再現されています。十分に使用に耐えうるレベルです。
最近はAIなどを利用して文章の前後から正しい漢字や文字を推測する技術が発展しているので、OCRの精度も上がってきているようです。
一方、文字フォントやフォントのサイズにはかなり大きな誤差が発生しています。注意深く見ていかないと文章がわかりにくくなる可能性があります。原本と見比べることによって、人間が修正をいれる必要がありますね。
次に少し意地悪なテストもしてみました。三井倉庫の「そう」と読ませる漢字は多くあります。この文字を一覧にしてOCRで読み取るとどうなるのでしょう。
下の図は「そう」の漢字を並べたものです。ワードで文字データを作り画像化しました。
このjpgデータをOCRで処理すると下のような結果になりました。
変換した文字の順番の違い、漢字の抜け、変換間違いなどが多く発生しました。
誤変換を確認した結果が下の表です。
・ 赤字は正しく変換
・ ⇒のあるものは下線のある漢字に変換されてしまった
・ ( )内の漢字は変換されずに抜けてしまった
という3つのタイプに分けられました。
77文字中
正解:45 (58.4%)
文字抜け:7 (9.1%)
誤変換:25 (32.5%)
という結果になりした。
結構、誤読が多いことがわかります。
尚、フォントの違いによる差があるかどうかも試してみましたが、大きな差はありませんでした。
▼OCRは使うべきか
OCRについて、数字やアルファベットについてはかなり高い精度で画像データから文字データへの変換が可能、ということができると思います。また、文章についても比較的精度は高くなってきています。
OCRはOCR変換ソフトの種類によって、強みや弱みの特徴があります。漢字の変換に強いOCR、表の変換に強いOCRなど様々です。OCRを使って文字起こしをする場合には、十分に特徴を把握して適切なOCRソフトを使うことをお勧めします。
また、エントリーによる文字起こしと同様に必ずチェックは必要です。精度の低いOCRを使った場合、修正が多すぎて手間がかかり、最初からエントリーをしておけば良かったというケースもあるので注意が必要です。
◇まとめ
電子化された文書を再利用するためにエントリーによる文字起こしとOCRによる文字起こしを紹介しました。エントリーの場合は、どうしても時間とコストがかかってしまいます。一方、OCRの場合は処理が速くなりますが、精度という点ではエントリーに比べて見劣りします。
エントリーとOCRの両方を使い、重要な文書はエントリーで、書かれている文書の文字を再利用したい場合はOCRというように用途によっての使い分けも考えてみてください。
※OCRの精度や使い方については、OCRを扱っているメーカーに確認してください。この記事の結果はある無料のOCRソフトを使って試したものですが、結果を保証するものではありません。
・三井倉庫ビジネスパートナーズでは、書類の電子化やそれに伴うデータの入力代行サービスをご提供しています。イメージングやデータ入力を専門とするチームがレコードセンター内に常駐のうえ、対応いたします。デジタル化した書類は施設外へ持ち出すことなく、レコードセンターでの保管が可能です。