0

こんにちは、NTTデータ技術支援チームです。

いつもユーザーフォーラムをご利用いただき、ありがとうございます。

取得したい項目名を指定することでCSV出力ができる、生成AIを活用した「項目抽出」機能に

2024年8月6日に新たに「Few-shot学習」が公開されました!

■Few-shot学習とは?■

Few-shot学習とは、「項目抽出」にて読取精度を向上させるための

回転補正、OCR補正に続く新たな補正設定です。

データチェック済みの読取結果を参考データとして活用し、次回以降の読取結果を補正します。

従来のように大量のデータが必要な大規模言語モデルの学習とは異なるアプローチとなり、

1枚の帳票の読取結果を参考データとして扱います。

そのため、企業独自の帳票等の、一般的に学習データが少ない帳票において、読取精度の向上が期待できます。 

使い方は、適用をONにするだけでご利用いただけます。

また、ワークフローごとに適用のON/OFFを変更できます。

項目抽出のワークフロー編集画面の「補正設定」からアクセスしてください。

※2024年8月6日メンテナンス後に新規作成した項目抽出のワークフローでは、

 Few-shot学習はデフォルトで「適用」になっています

■Few-shot学習の適用条件■

Few-shot学習は、以下の条件すべてに当てはまる場合適用されます。

ワークフローの条件

・Few-shot学習を適用(ON)している

・データチェック(シングルチェック)を適用している

ユニットの条件

・30日以内に作成されたデータチェック済みのユニットが存在する

※ワークフロー内に、作成から31日以上経過したユニットのみが存在する場合は、

 当該ワークフローにおいてFew-shot学習は適用されません。

 新たにユニットを作成しデータチェックをすることで、次回以降の読取りにおいては

 Few-shot学習が再度有効となります。

■参考データとして扱われる帳票の選定方法■

ユニットを新規作成する時点で、参考データを都度選定します。

参考データの選定条件は以下の通りです。

・ワークフロー設定と、データチェック済み帳票の項目名・項目数が「完全一致」している帳票

 通常項目・明細項目の両方が一致している必要があります。

・データチェックが完了したユニット

・作成時刻が最新のユニット

 ユニット内に複数のページが存在する場合、最後にアップロードされたページを参考データにします。

■最後に■

Few-shot学習は、「学習機能」とは別物の機能です。

Few-shot学習機能を用いることで、AIモデルに学習データとして利用されることはありません。

また、Few-shot学習にて使用した参考データは、ご利用環境(ワークフロー内)のみで活用されるため、

第三者に公開・利用されることはありません。

ぜひ、この機会に「Few-shot学習」機能をご活用ください。

その他項目抽出の関連コラムはこちら

<過去項目抽出のコラム>

【DX050】新機能「項目抽出」について~基本操作編~

【DX051】新機能「項目抽出」について~追加指示・設定のコツ編~

【DX081】項目抽出~データ加工機能~

<本投稿の動作環境>

DX Suite(クラウド版)v1.130.0

<お願い>

 本投稿に関しての問合せにつきましては、

 恐れ入りますがコメントではなく、個別問合せにてお願いいたします。

 【WA0116】ユーザーフォーラムで質問を投稿するときの手順

技術支援チーム65 質問の投稿
回答とコメントは、会員登録(無料)で閲覧できるようになります。