本記事では、「項目抽出」でワークフローを作成する方法について解説します。
項目抽出とは
項目抽出とは、読み取りたい項目名を入力するだけでデータ化ができるOCR方法です。
「読取範囲の指定」とは異なり、読取範囲を1つ1つ枠で指定する必要はなく、「商品名」「品番」「数量」といった項目名を入力するだけで、簡単に設定することができます。
※他のワークフロー作成方法との違いや、選び方についてはこちらをご参照ください。
※項目抽出は、半角カタカナのCSV出力には対応しておりません。
項目抽出の設定方法 | 方法①:抽出したい項目を1項目ずつ手動で入力します。 |
方法②:各種のプリセットから抽出したい項目を選択します。 | |
項目抽出の設定フロー | Step.1 「項目抽出」を選択 |
Step.3 補正設定 | |
Step.4 データチェック | |
Step.5 データ加工 | |
Step.6 アウトプット | |
読取テスト |
項目抽出の設定方法は2つあります。
方法①:抽出したい項目を1項目ずつ手動で入力します。
方法②:各種のプリセットから抽出したい項目を選択します。
項目抽出の設定フローは以下となります。
Step.1 | 「項目抽出」を選択 |
Step.2 | データ化(項目名の設定コツ) |
Step.3 | 補正設定 |
Step.4 | データチェック |
Step.5 | データ加工 |
Step.6 | アウトプット |
Step.1 「項目抽出」を選択
Intelligent OCRのホーム画面の左上にある「ワークフロー作成」をクリックし、「項目抽出」を選択します。
以下のようなキーワードを検索し、項目抽出の「プリセット」から必要な帳票の種類を選択したうえで、抽出したい項目の設定も可能です。
Step.2 データ化
画面左側のメニューから「項目抽出」タブを押して、帳票から出力したい項目を設定します。
項目:抽出したい帳票内の項目名を入力します。
※複数の項目をカンマで区切って入力してからEnterキーを押すと、「項目追加」ボタンを押さなくても一括で設定することができます。
※次の記号は、項目名として使用することができません。
\/:*?"<>|
CSVヘッダー名:帳票内の項目名とは別の名称を「CSVヘッダー名」に登録することができます。
「項目追加」ボタンをクリックすると、出力したい「通常項目」を追加することができます。
※ 50項目まで追加できます。
帳票の中に明細表が入っている場合、「明細項目」のタブをクリックし、抽出したい列を設定することができます。
※ 10項目まで追加できます。
<設定した項目の並べ替え>
ドラッグ&ドロップにより読み取りたい項目を並び替えられます。
<追加指示>
抽出したい項目ごとに、読取精度を向上させるための指示を入力する機能です。
- 追加指示を設定したい項目に対して、三点ボタンをクリックし、プルダウンメニューから「追加指示」を選択します。
- 追加指示を入力します。
※ 入力できる文字数の上限は255文字までです。
記載例:
例1)付近に存在する項目をヒントとして書く
項目名: 宛先会社名
追加指示: 御中の前に記載された会社名
例2)値が決まっている場合の例を書く
項目名: 保険種別
追加指示: 協会,国保,組合など
例3)記載文字列のルールを書く
項目名: 登録番号
追加指示: Tから始まる13桁の数字
<項目名の設定のコツ>
-
項目名はなるべく帳票上の表記に合わせること
例えば、帳票上に項目名と取得したい値が並んでいる場合、帳票に書かれている名前をそのまま「項目名」に設定したほうが取得しやすくなります。
氏名:平岡 奈央
例:帳票に「氏名:〇〇〇〇」と表記があったら、名前
ではなく氏名
とする
-
取りうる値が決まっている場合は項目名に例示を含めること
取得したい値が自由記述の文字列ではなくいくつかの候補に絞られる場合、項目名の指定に項目名[候補1,候補2,候補3]
のように値の候補となる文字列を加えることで取得しやすくなります。
※ 特に項目名の部分がなく、値だけが出現する項目の場合は重要です。
また、帳票上の表記の候補が複数ある場合も、カンマ区切りで列挙する方法が項目定義のチューニング精度を高める可能性があります。
※ 項目名に値の候補となる文字列を加える場合、[ ]または( )を使用してください。
画像サンプル(読み取りたい内容) 項目名の例 預金種目[普通,当座]
※[外税,消費税,税額]10%
-
項目の並び順をなるべく帳票上の出現順に合わせること
帳票の出現項目や順番がほぼ決まっている場合、項目の並び順を帳票内の出現順に合わせたほうが取得しやすくなります。
-
紛らわしい項目を誤検出しないように
- 項目名を帳票上の表記と統一すること
間違って他の値が項目に割り当てられてないように、似たような項目が存在する場合は、帳票上の表記と統一して記載したほうが取得しやすくなります。
- 紛らわしい項目を新しい項目として定義すること
帳票の中に表記が似ている項目が複数ある場合、書類上意味が違う項目を誤検出してしまうことがあります。このような場合は、取得する必要がなくても、紛らわしい項目を新しい項目として定義することで誤検出を回避できることがあります。
- 帳票上に複数の同じ表記をすべて抽出したい項目として設定すること
帳票の中に同じ表記が複数ある場合、以下のように設定すると、誤検出を回避できることがあります。項目名:(1人目)住民票コード
※ 項目名に値の候補となる文字列を加える場合、[ ]または( )を使用してください。
項目名:(2人目)住民票コード
<参考>
AI inside Academy にて、追加指示のコツを動画で解説しています。
【動画】項目抽出「追加指示」のコツ※AI inside Academy のご利用には会員登録が必要です。
※with DX Suite/with AI inside 製品をご契約の場合は、AI inside Academy はご利用いただけません。
Step.3 補正設定
ワークフロー編集画面の左側の[補正設定]をクリックすると、「回転補正設定」、「OCR補正設定」、「Few-shot学習」を適用できます。
回転補正設定バナーの右上にある「適用」ボタンを「ON」にすると、横向きの帳票や斜めになった帳票に補正することができます。
※ 読取チェック画面で帳票が斜めになってしまう場合は、回転補正設定を「OFF」にすると改善する可能性があります。
OCR補正設定バナーの右上にある「適用」ボタンを「ON」にすると、ユーザ辞書を使用して、OCR結果を修正できます。
Few-shot学習バナーの右上にある「適用」ボタンを「ON」にすると、チェック済みの帳票データを読み取りのサンプルに使用して読み取り精度の改善が見込めます。
詳細は「Few-shot学習とは」をご参照ください。
Step.4 データチェック
画面左側のメニューから「データチェック」タブを押して、[適用]をクリックすると、シングルチェックを実施することができます。
Step.5 データ加工
画面左側のメニューから「データ加工」タブを押して、[適用]をクリックすると、データ加工設定を実施することができます。
※帳票のレイアウトが異なるため、デフォルトで指定する画像データはなく、「画像がありません」という表記になります。エラーではありません。
※CSVヘッダー名の変更はできません。項目名を変更したい場合、項目抽出の画面から設定してください。
Step.6 アウトプット
アウトプットではOCR後にダウンロードする出力ファイル名と文字コード、CSVヘッダー名の出力有無を指定できます。
詳細は「アウトプットの設定方法」をご参照ください。
すべての設定が完了しましたら、画面の右上にある「保存して閉じる」ボタンを押します。
あとは通常の操作と同じように作成したワークフローを保存し、ユニット作成、データチェック等を行なってからCSVダウンロードをして確認してみてください。
<読取テスト>
読取テストを実施できます。読み取られる画像は先頭の1枚のみです。
※ データ加工は読取テストの読取結果に反映されません。
- 画面右上にある「読取テスト」をクリックします。
- 検証したいファイルを1つアップロードし、「実行」ボタンをクリックします。
※ 読取テストを実行するごとに課金されます。読取テストの失敗の場合、課金されません。 - 設定した項目の読取結果が表示されます。
※ 複数ページに跨る帳票をアップロードすることはできません。1ページに収まる画像ファイルを登録してください。
※ 「項目抽出」は「全文読取」から抽出したい項目だけをAIがデータ化する仕組みとなります。
※ 「項目抽出」は「全文読取」と同様の価格設定となります。リクエスト集計も「全文読取」と同様に集計され、リクエスト集計画面でも「全文読取」枠に合算されます。詳細な金額につきましては、お手元の価格表をご確認ください。
※ 「ワークフロー検証」機能を使って、最新のワークフロー設定で読取テストを実施できます。(「ワークフロー検証」を使う場合はリクエスト数としてカウントされません。)
<関連リンク>
項目抽出 FAQ一覧
項目抽出のデータ化失敗時の対処方法
[New UI]項目抽出機能を使って、郵便番号と住所を分けて出力したい場合の設定方法を教えてください。
[New UI]標準APIにおける項目抽出の対応状況を教えてください。
[New UI]項目抽出とプリセット(項目選択)の違いについて教えてください。