【DX089】項目抽出~Few-shot学習~
こんにちは、NTTデータ技術支援チームです。
いつもユーザーフォーラムをご利用いただき、ありがとうございます。
取得したい項目名を指定することでCSV出力ができる、生成AIを活用した「項目抽出」機能に
2024年8月6日に新たに「Few-shot学習」が公開されました!
■Few-shot学習とは?■
Few-shot学習とは、「項目抽出」にて読取精度を向上させるための
回転補正、OCR補正に続く新たな補正設定です。
データチェック済みの読取結果を参考データとして活用し、次回以降の読取結果を補正します。
従来のように大量のデータが必要な大規模言語モデルの学習とは異なるアプローチとなり、
1枚の帳票の読取結果を参考データとして扱います。
そのため、企業独自の帳票等の、一般的に学習データが少ない帳票において、読取精度の向上が期待できます。
使い方は、適用をONにするだけでご利用いただけます。
また、ワークフローごとに適用のON/OFFを変更できます。
項目抽出のワークフロー編集画面の「補正設定」からアクセスしてください。
※2024年8月6日メンテナンス後に新規作成した項目抽出のワークフローでは、
Few-shot学習はデフォルトで「適用」になっています
■Few-shot学習の適用条件■
Few-shot学習は、以下の条件すべてに当てはまる場合適用されます。
ワークフローの条件
・Few-shot学習を適用(ON)している
・データチェック(シングルチェック)を適用している
ユニットの条件
・30日以内に作成されたデータチェック済みのユニットが存在する
※ワークフロー内に、作成から31日以上経過したユニットのみが存在する場合は、
当該ワークフローにおいてFew-shot学習は適用されません。
新たにユニットを作成しデータチェックをすることで、次回以降の読取りにおいては
Few-shot学習が再度有効となります。
■参考データとして扱われる帳票の選定方法■
ユニットを新規作成する時点で、参考データを都度選定します。
参考データの選定条件は以下の通りです。
・ワークフロー設定と、データチェック済み帳票の項目名・項目数が「完全一致」している帳票
通常項目・明細項目の両方が一致している必要があります。
・データチェックが完了したユニット
・作成時刻が最新のユニット
ユニット内に複数のページが存在する場合、最後にアップロードされたページを参考データにします。
■最後に■
Few-shot学習は、「学習機能」とは別物の機能です。
Few-shot学習機能を用いることで、AIモデルに学習データとして利用されることはありません。
また、Few-shot学習にて使用した参考データは、ご利用環境(ワークフロー内)のみで活用されるため、
第三者に公開・利用されることはありません。
ぜひ、この機会に「Few-shot学習」機能をご活用ください。
その他項目抽出の関連コラムはこちら
<過去項目抽出のコラム>
【DX051】新機能「項目抽出」について~追加指示・設定のコツ編~
<本投稿の動作環境>
DX Suite(クラウド版)v1.130.0
<お願い>
本投稿に関しての問合せにつきましては、
恐れ入りますがコメントではなく、個別問合せにてお願いいたします。