【DX116】Intelligent OCRの精度向上術~後編~
こんにちは、NTTデータ技術支援チームです。
いつもユーザーフォーラムをご利用いただき、ありがとうございます。
Elastic Sorterに続いて、Intelligent OCRの精度向上術をお届けします。
今回のコラムは、Intelligent OCR の読取精度向上のための設定方法についての後編となります。
【DX115】Intelligent OCRの精度向上術~前編~
■画像のズレ編
「読取範囲の指定」では、読み取りたい帳票をアップロードする際に、帳票の傾きを自動で補正します。
そのため、横向きの帳票をアップロードした場合も、正しい向きに補正してから読み取ることができます。
Elastic Sorter同様、自動補正は
ワークフローに設定された画像とアップロードした画像の特徴点(罫線、罫線の交点や角、文字)をマッチングさせています。
そのため、レイアウトが異なる画像をアップロードすると、正しく自動補正されずに歪んでしまうこともあります。
※帳票定義作成時に設定する帳票は、向きや歪みを自動補正しません。歪みがない正しい向きの帳票をアップロードしてください。
①「重点補正」をONにして、歪みや傾きが補正されるか。
DX Suite では、アップロードした帳票には「自動補正」機能が自動で適用され、帳票の歪みや傾きを補正していますが、
帳票によっては正しく補正できず、余計な歪みが発生してしまうケースがあります。
「重点補正」は、角度・歪みなどを適切な優先付けで調整することができるため、
自動補正で歪んでしまった帳票を補正することができます。
※すべてのケースで補正ができるとは限らないため、重点補正をONにした後、効果をご確認ください。
②300dpi 程度の画像ファイルを使用する
DX Suiteではアップロードする帳票ファイルは300dpi 程度を推奨しています。
解像度が低すぎると認識精度が低下してしまい、
ワークフローに設定された画像と同じ帳票と判定できず、正しく読み取ることができません。
また、画像をスキャンした時点で斜めに大きく傾いていたり、歪んでいる画像をアップロードした場合、
自動補正がうまく機能しない可能性があります。
傾きや歪みがない帳票画像をアップロードしてください。
③レイアウトが類似する箇所を除去した画像に差し替える、特徴量を減らす
全体的なレイアウトは同じであっても、文字量や明細部分の行数に大きな差がある場合、
違う帳票として判断されてしまうケースがあります。
ワークフローに使用しているベースの画像の書き込み部分などを画像編集ソフトで編集し、
文字を減らすことで罫線を特徴点として際立たせることで、精度が向上する場合があります。
以上、ご参考になれば幸いです。
<本投稿の動作環境>
DX Suite(クラウド版)v1.145.0
<お願い>
本投稿に関しての問合せにつきましては、
恐れ入りますがコメントではなく、個別問合せにてお願いいたします。