Few-shot学習とは、「項目抽出」にて読取精度を向上させるための補正設定です。
データチェック済みの読取結果を参考データとして活用し、次回以降の読取結果を補正します。
従来のように大量のデータが必要な大規模言語モデルの学習とは異なるアプローチとなり、1枚の帳票の読取結果を参考データとして扱います(モデル学習は行いません)。
そのため、企業独自の帳票等の一般的に学習データが少ない帳票において、読取精度の向上が期待できます。
従来の「追加指示」では項目ごとに指示の入力が必要でしたが、Few-shot学習は適用をONにするだけで、簡単にご利用いただけます。
使い方
Few-shot学習は、適用をONにするだけでご利用いただけます。
また、ワークフローごとに適用のON/OFFを変更できます。
項目抽出のワークフロー編集画面の「補正設定」からアクセスしてください。
なお、Few-shot学習は2024年8月6日PM9:00~PM11:00のメンテナンスにて公開しました。
リリース後に新規作成した項目抽出のワークフローは、デフォルトでFew-shot学習の適用がONになります。
2024年8月6日メンテナンス後
2024年8月6日メンテナンス以前
|
Few-shot学習の適用条件
以下の条件すべてに当てはまる場合、Few-shot学習が適用されます。
- ワークフローの条件
- Few-shot学習を適用している
- データチェック(シングルチェック)を適用している
- ユニットの条件
- 30日以内に作成されたデータチェック済みのユニットが存在する
- 参考データとして扱われるデータの保持期間は、30日間です。
- ワークフロー内に、作成から31日以上経過したユニットのみが存在する場合は、当該ワークフローにおいてFew-shot学習は適用されません。新たにユニットを作成しデータチェックをすることで、次回以降の読取りにおいてはFew-shot学習が再度有効となります。
- 30日以内に作成されたデータチェック済みのユニットが存在する
参考データとして扱われる帳票の選定方法
ユニットを新規作成する時点で、参考データを都度選定します。選定条件は以下を全て満たす帳票です。
- ワークフロー設定と、データチェック済み帳票の項目名・項目数が「完全一致」している帳票
- データチェックが完了したユニット(補足画像1,2)
- すべてのデータチェック済みの結果が空白ではない帳票(補足表1)
- 作成時刻が最新のユニット
- ユニット内に複数のページが存在する場合、最後にアップロードされたページを参考データにします。
他機能との違い
Few-shot学習、追加指示、データ加工、OCR補正は、以下のような違いがあります。
Few-shot学習 | 追加指示 | データ加工 | OCR補正 | |
目的 |
抽出精度の向上 |
抽出精度の向上 |
出力形式の指定 |
読取精度の補完 |
概要 | データチェック後の「読取結果の正解」を参考データにする。 追加指示と比較して、項目ごとに指示の入力が不要なため手軽に設定可能。 |
全文読取の結果から 「必要な項目」を抽出するため、文字列の特徴等を指定する。 |
アウトプット形式を 指定するためのルールを設定する。 |
誤読した文字を、 ユーザ辞書に登録している一番近い文字に変換する。 |
使用例 |
例1)「請求先」「請求元」のように、帳票内に意味の類似する項目が2つある場合
|
例1)「商品コードはTから始まる6桁の英数字で記載されています」と指示。 例2)「日付はyyyy/mm/dd形式で記載されています」と指示 |
例1)データ加工「全角半角変換」にて、半角で読み取った商品コードを全角で出力する
|
例) 「永愛精工株式会社」と誤読した文字を「永愛精巧株式会社」に変換する。 |
学習機能との関係について
Few-shot学習は、AI学習コントロールにおける「学習機能」とは別の機能です。
Few-shot学習機能を用いることで、AIモデルに学習データとして利用されることはありません。
(AIモデルの学習に利用されるかどうかは、「学習機能」のON/OFFでコントロールすることができます。)
参考データの活用範囲について
Few-shot学習にて使用した参考データは、ご利用環境(ワークフロー内)のみで活用されるため、第三者に公開・利用されることはありません。
また、Few-shot学習の参考データはユニットに紐づくため、ユニットを削除をすることで、参考データとして保持されなくなります。
FAQ
Q.誤った内容でデータチェックをしてしまった場合は、どうしたらいいですか?
A.次にデータチェックを行う際に、正しい情報を入力してください。
新たなデータチェックが行われると、古いデータチェックの内容は参考データとして使われなくなります。
※データチェックが最後まで完了していない場合は、再度修正することが可能です。
==============================================================
Q.Few-shot学習の適用をONからOFFにし、再度ONにした場合は、どうなりますか?
A.OFFにしていた際に作成したユニットが、作成から30日以内であれば、再度ONにした時に参考データの候補となります。
==============================================================
Q.Few-shot学習に向いていない帳票はどのようなものですか?
A.例えば以下のような帳票は、Few-shot学習の機能特性上、精度向上が期待しにくい場合がございます。
- フォーマットが多様な帳票
- 1ページで完結しない(複数ページにまたがる)帳票
- 帳票内に存在する項目数が変動する帳票
精度向上が必要な場合には、Few-shot機能だけでなく、複合的な機能の検証をおすすめします。
- Few-shot学習機能のON/OFF時の精度を比較する
- 追加指示・OCR補正など、その他の精度向上手段の活用