本記事では、「項目抽出」でワークフローを作成する方法について解説します。
項目抽出とは
項目抽出とは、読み取りたい項目名を入力するだけでデータ化ができるOCR方法です。
「読取範囲の指定」とは異なり、読取範囲を1つ1つ枠で指定する必要はなく、「商品名」「品番」「数量」といった項目名を入力するだけで、簡単に設定することができます。
※他のワークフロー作成方法との違いや、選び方についてはこちらをご参照ください。
※項目抽出は、半角カタカナのCSV出力には対応しておりません。
項目抽出の設定方法 | 方法①:抽出したい項目を1項目ずつ手動で入力します。 |
方法②:各種のプリセットから抽出したい項目を選択します。 | |
項目抽出の設定フロー | Step.1 「項目抽出」を選択 |
Step.3 補正設定 | |
Step.4 データチェック | |
Step.5 データ加工 | |
Step.6 アウトプット | |
読取テスト |
項目抽出の設定方法は2つあります。
方法①:抽出したい項目を1項目ずつ手動で入力します。
方法②:各種のプリセットから抽出したい項目を選択します。
項目抽出の設定フローは以下となります。
Step.1 | 「項目抽出」を選択 |
Step.2 | データ化(項目名の設定コツ) |
Step.3 | 補正設定 |
Step.4 | データチェック |
Step.5 | データ加工 |
Step.6 | アウトプット |
Step.1 「項目抽出」を選択
Intelligent OCRのホーム画面の左上にある「ワークフロー作成」をクリックし、「項目抽出」を選択します。
以下のようなキーワードを検索し、項目抽出の「プリセット」から必要な帳票の種類を選択したうえで、抽出したい項目の設定も可能です。
Step.2 データ化
画面左側のメニューから「項目抽出」タブを押して、帳票から出力したい項目を設定します。
項目:抽出したい帳票内の項目名を入力します。
※複数の項目をカンマで区切って入力してからEnterキーを押すと、「項目追加」ボタンを押さなくても一括で設定することができます。
※次の記号は、項目名として使用することができません。
\/:*?"<>|
CSVヘッダー名:帳票内の項目名とは別の名称を「CSVヘッダー名」に登録することができます。
「項目追加」ボタンをクリックすると、出力したい「通常項目」を追加することができます。
※ 50項目まで追加できます。
帳票の中に明細表が入っている場合、「明細項目」のタブをクリックし、抽出したい列を設定することができます。
※ 10項目まで追加できます。
<設定した項目の並べ替え>
ドラッグ&ドロップにより読み取りたい項目を並び替えられます。
追加指示
抽出したい項目ごとに、読取精度を向上させるための指示を入力する機能です。
追加指示を設定したい項目に対して、三点ボタンをクリックし、プルダウンメニューから「追加指示」を選択します。
追加指示を入力します。
※ 入力できる文字数の上限は255文字までです。
記載例:
例1)付近に存在する項目をヒントとして書く
項目名: 宛先会社名
追加指示: 御中の前に記載された会社名
例2)値が決まっている場合の例を書く
項目名: 保険種別
追加指示: 協会,国保,組合など
例3)記載文字列のルールを書く
項目名: 登録番号
追加指示: Tから始まる13桁の数字
※読み取った文字列を加工して出力したい場合は、データ加工をご利用ください。
項目名の設定のコツ
1. 項目名はなるべく帳票上の表記に合わせる
例えば、帳票上に項目名と取得したい値が並んでいる場合、帳票に書かれている名前をそのまま「項目名」に設定したほうが取得しやすくなります。
氏名:平岡 奈央
例:帳票に「氏名:〇〇〇〇」と表記があったら、名前
ではなく氏名
とする
2. 項目の並び順をなるべく帳票上の出現順に合わせる
帳票の出現項目や順番がほぼ決まっている場合、項目の並び順を帳票内の出現順に合わせたほうが取得しやすくなります。
3. 誤検出を対策する
3.1 項目名を帳票上の表記と統一する
間違って他の値が項目に割り当てられてないように、似たような項目が存在する場合は、帳票上の表記と統一して記載したほうが取得しやすくなります。
3.2 紛らわしい項目を新しい項目として定義する
帳票の中に表記が似ている項目が複数ある場合、書類上意味が違う項目を誤検出してしまうことがあります。このような場合は、取得する必要がなくても、紛らわしい項目を新しい項目として定義することで誤検出を回避できることがあります。
3.3 帳票上に名称の項目が2つある場合は、「セルへの出力指示」を活用する
詳細はこちらをご参照ください。
4. 「セルへの出力指示」を活用する
「セルへの出力指示」とは、項目名の先頭や末尾に、カッコ( )[ ]で補足を記載し、データを抽出のヒントをAI 与える方法です。
※読み取った文字列を加工して出力したい場合は、データ加工をご利用ください。
4.1 出力内容の候補が決まっている場合は、「セルへの出力指示」を活用する
取得したい値が自由記述の文字列ではなくいくつかの候補に絞られる場合、以下のように値の候補となる文字列を項目名に加えることで、精度が向上する可能性があります。
項目名(候補1,候補2,候補3)
特に、帳票上に項目名の記載がなく、値だけが記載されている場合に有効です。
また、帳票上の表記の候補が複数ある場合も、カンマ区切りで列挙する方法が項目定義のチューニング精度を高める可能性があります。
画像サンプル(読み取りたい内容) |
「セルへの出力指示」を含めた項目名の例 |
預金種目(普通,当座) |
|
(外税,消費税,税額)10% |
※カッコ[ ]で補足を記載している場合、まれに正しく読み取れないケースがあります。
その場合、( )に記載を変更して読み取りをお試しください。
4.2 帳票上に名称の項目が2つある場合は、「セルへの出力指示」を活用する
帳票の中に同じ表記が複数ある場合、以下のように設定すると、誤検出を回避できることがあります。
項目名:(1人目)住民票コード
項目名:(2人目)住民票コード
※カッコ[ ]で補足を記載している場合、まれに正しく読み取れないケースがあります。
その場合、( )に記載を変更して読み取りをお試しください。
<参考> AI inside Academy にて、追加指示のコツを動画で解説しています。 ※AI inside Academy のご利用には会員登録が必要です。 |
Step.3 補正設定
ワークフロー編集画面の左側の[補正設定]をクリックすると、「回転補正設定」、「OCR補正設定」、「Few-shot学習」を適用できます。
回転補正設定バナーの右上にある「適用」ボタンを「ON」にすると、横向きの帳票や斜めになった帳票に補正することができます。
※ 読取チェック画面で帳票が斜めになってしまう場合は、回転補正設定を「OFF」にすると改善する可能性があります。
OCR補正設定バナーの右上にある「適用」ボタンを「ON」にすると、ユーザ辞書を使用して、OCR結果を修正できます。
Few-shot学習バナーの右上にある「適用」ボタンを「ON」にすると、チェック済みの帳票データを読み取りのサンプルに使用して読み取り精度の改善が見込めます。
詳細は「Few-shot学習とは」をご参照ください。
Step.4 データチェック
データチェックとは、読み取った文字が正しいかどうかを目視でチェックし、修正することができる機能です。
画面左側のメニューから「データチェック」タブを押して、[適用]をクリックすると、シングルチェックを実施することができます。
Step.5 データ加工
データ加工とは、読み取った文字列を加工して出力することができる機能です。
画面左側のメニューから「データ加工」タブを押して、[適用]をクリックすると、データ加工設定を実施することができます。
詳細な使い方は「応用設定>データ加工」をご参照ください。
※項目抽出は異なるレイアウトの帳票を読み取るため、デフォルトで設定する帳票データがなく、「画像がありません」という表記になります。エラーではありません。
※CSVヘッダー名の変更はできません。項目名を変更したい場合、項目抽出の画面から設定してください。
Step.6 アウトプット
アウトプットでは読取結果をダウンロードする出力ファイル名と文字コード、CSVヘッダー名の出力有無を指定できます。
詳細は「アウトプットの設定方法」をご参照ください。
すべての設定が完了したら、画面の右上にある「保存して閉じる」ボタンを押して、ワークフローを完成させてください。
読み取りたい帳票はユニット作成にてアップロードし、データチェック等を行なってからCSVダウンロードを行ってください。
読取テスト
読取テストを実施できます。読み取られる画像は先頭の1枚のみです。
※ データ加工は読取テストの読取結果に反映されません。
1. 画面右上にある「読取テスト」をクリックします。
2. 検証したいファイルを1つアップロードし、「実行」ボタンをクリックします。
※ 読取テストを実行するごとに課金されます。読取テストの失敗の場合、課金されません。
3. 設定した項目の読取結果が表示されます。
※ 複数ページに跨る帳票をアップロードすることはできません。1ページに収まる画像ファイルを登録してください。
※ 「項目抽出」は「全文読取」から抽出したい項目だけをAIがデータ化する仕組みとなります。
※ 「項目抽出」は「全文読取」と同様の価格設定となります。リクエスト集計も「全文読取」と同様に集計され、リクエスト集計画面でも「全文読取」枠に合算されます。詳細な金額につきましては、お手元の価格表をご確認ください。
※ 「ワークフロー検証」機能を使って、最新のワークフロー設定で読取テストを実施できます。(「ワークフロー検証」を使う場合はリクエスト数としてカウントされません。)
<関連リンク>
項目抽出 FAQ一覧
項目抽出のデータ化失敗時の対処方法
標準APIにおける項目抽出の対応状況を教えてください。
項目抽出とプリセット(項目選択)の違いについて教えてください。