本記事で分かること
- 1ページに複数のレシートが並んだPDFから、個々のレシートの項目を抽出する方法が分かります。
- DX Suite の「項目抽出」機能を利用して、複数レシートの項目を個別に設定し、CSV形式で出力する手順を理解できます。
- 誤検出を防ぐための設定や、読取精度を改善する方法について把握できます。
よくあるケース
DX Suite (クラウド版)をご利用で、経費精算や領収書管理において、1ページに複数のレシートをまとめてスキャンしたPDFを処理したい場合に本記事が役立ちます。
解説
DX Suite で1ページに複数のレシートが並んだPDFを読み取る際、以下の理由により個別のレシート項目を正確に抽出できない場合があります。
- 「読取範囲の指定」や「全文読取」機能では、複数レシートの項目を個別に分割して出力することに対応していません。
- 「項目選択(領収書・レシート)」機能では、必要な項目が検出対象外となることがあります。
このような場合、「項目抽出」機能を利用することで、各レシートの項目を個別に設定し、CSV出力することが可能です。
設定方法
1ページに複数のレシートが並んだPDFから項目を抽出するには、以下の手順で「項目抽出」のワークフローを設定します。
- 「項目抽出」のワークフローを作成します。
- 各レシートごとに、例えば「申請番号1~5」「名前1~5」のように、抽出したい項目を「通常項目」に設定します。
- 値を一列にまとめて出力したい場合は、対象となる項目を「明細項目」に設定します。
- 必要に応じて、不要な文字(例:「様」「曜日」「¥」など)を除外する追加指示を設定します。
- 読取結果を確認し、必要に応じてFew-shot学習を活用して精度を改善します。
- 項目が誤検出される場合は、対象項目を追加設定し、CSV出力時に非出力にする設定を行います。
補足
運用上の注意点
- 4枚目と5枚目のレシートの順序が入れ替わるなど、完全に並び順を制御することは困難な場合があります。
- 手書き文字が含まれる場合、読取精度が低下する可能性があります。
- 並び順の乱れや誤読については、運用でのチェックを推奨します。