【DX114】Elastic Sorterの精度向上術
こんにちは、NTTデータ技術支援チームです。
いつもユーザーフォーラムをご利用いただき、ありがとうございます。
複数種類の帳票を自動仕分けし、Intelligent OCR で帳票設定ごとの読み取りを行う「Elastic Sorter」機能
「想定してない帳票に仕分けられてしまう!」なんてことはありませんか。
今回は、Elastic Sorterの仕分け精度向上のための、設定方法についてご紹介いたします。
■どのように仕分けているのか
Elastic Sorterは、帳票画像のレイアウト(罫線の直線、交点、角 、文字など)より特徴点を検出し、
設定元とアップロード画像の特徴点をマッチングさせ、仕分けルール内に登録されている帳票の中から、
一番類似していると思われるものに仕分けを行う仕様となっております。
仕分け結果にもし間違いがあった際には、手動で他のトレイに移動させることによって、
閾値が内部的に調整され、次回からの自動仕分けの精度が改善されます。
■手動で修正しても誤った仕分けをしてしまう場合
特徴点を減らすことで、マッチングをする際のノイズが減り、精度の向上につながります。
特徴点を減らすためには、以下のような方法があります。
・レイアウトが類似する箇所を除去した画像に差し替える、特徴量を減らす
仕分けトレイに設定している帳票定義(ワークフロー)に使用している画像を
ほかのトレイの画像と類似した部分を除去した画像に差し替える、
もしくは画像自体の特徴量を減らすことで、設定元の帳票画像の特徴量を調整します。
例
明細内の罫線部分ごと除去する、
通常は記載がない部分(明細の書きこみ部分など)を空白にする、など
・使用する画像の作成方法を統一する
仕様する画像の作成方法を統一することで、仕分け精度が向上する可能性がございます。
例
帳票定義設定元のファイルと読取を行うファイルの画像サイズ(ピクセルサイズ)、色の濃淡など
以上、ご参考になれば幸いです。
<本投稿の動作環境>
DX Suite(クラウド版)v1.145.0
<お願い>
本投稿に関しての問合せにつきましては、
恐れ入りますがコメントではなく、個別問合せにてお願いいたします。