DX Suite で、帳票をデータ化する流れを解説します。
データ化までは、大きく分けて4つのステップがあります。
この記事を読むことで、以下について把握することができます。
- データ化までの流れ
- 各ステップの概要
データ化までの4つのステップ
DX Suite で帳票をデータ化するためには、以下の4つのステップを行います。
- あらかじめ「どのような方法でデータ化を行うのか」を定義する「ワークフロー」を作成
- 読み取りたい帳票を「ユニット」と呼ばれるフォルダにアップロードし、データ化を開始
- 「読取チェック」にて、目視で読み取り結果を確認・修正(任意)
- CSVなどのファイルをダウンロード
1. ワークフローの作成方法を選ぶ
請求書、注文書、申込書をはじめとする各種帳票をデータ化するために、事前に「どのような方法でデータ化を行うのか」をワークフローにて設定します。
<ワークフロー作成方法の種類>
ワークフローの作成方法は、以下の5種類があります。
-
読取範囲の指定
- 必要な部分のみデータ化が可能
-
全文読取
- 文章全体をデータ化可能
-
項目抽出
- 設定の手間を削減して、必要な部分のみデータ化が可能
-
項目選択
- あらかじめセットされた設定を活用して、必要な部分のみデータ化が可能
- 設定インポート
- エクスポートしたワークフローを、インポートして編集が可能
<ワークフロー作成方法の選び方>
帳票の種類や、重視したい機能、後続業務でどのようなデータ活用を行うかによって、最適なワークフローの作成方法は異なります。
詳細は「ワークフロー作成方法の選び方」をご参照ください。
2. ワークフロー作成
以下表のように、ワークフローを作成する方法によって、設定する内容は異なります。
読取範囲の指定 | 全文読取 | 項目抽出 | 項目選択 | ||
データ化 | 手動で読取範囲を指定 | 特別な設定は 不要 |
読み取りたい 項目名を入力 |
あらかじめセットされている項目を活用 (項目数の増減不可) |
|
補正設定 (任意) |
画像補正 |
〇 | × | × | × |
OCR補正 |
〇 | × | 〇 | 〇 | |
回転補正 |
× | × | 〇 | × | |
データチェック (任意) |
シングルチェック | 〇 | 〇 | 〇 | 〇 |
ダブルチェック | 〇 | × | × | 〇 | |
項目別設定 | 〇 | × | × | 〇 | |
データ加工 (任意) |
〇 | × | 〇 | × | |
アウトプット | 出力ファイル名の設定 | 〇 | 〇 | 〇 | 〇 |
文字コードの指定 | 〇 | 〇 | 〇 | 〇 | |
CSVヘッダーの設定 | 〇 | × | 〇 | 〇 |
2.1 ワークフロー作成で設定する内容
手順1)データ化
- 読み取る箇所や、読み取る方法を設定します。
- ワークフロー作成の種類によって、設定内容が大きく異なります(詳細はこちら)。
手順2)補正設定(任意)
補正設定には、以下4種類があります。ワークフローの種類によって、使える補正設定が異なります。
-
画像補正設定
- 帳票のノイズ除去や、特定の色の除去などの補正ができます。
- 読取精度の改善は帳票の状態に左右されるため、調整しながらお試しください。
(「読取範囲の指定」のみご利用可能)
-
OCR補正設定
- あらかじめ登録したユーザ辞書を使用して、読み取ったデータを補正します。
(「読取範囲の指定」「項目抽出」「項目選択」にてご利用可能)
- あらかじめ登録したユーザ辞書を使用して、読み取ったデータを補正します。
-
回転補正設定
- 横向きの帳票や斜めになった帳票に補正を行い、正しい向きで読み取ります。
(「項目抽出」にてご利用可能)
- 横向きの帳票や斜めになった帳票に補正を行い、正しい向きで読み取ります。
手順3)データチェック(任意)
- 読み取ったデータを目視で確認し、誤っていた場合は手入力で修正をします。
- データチェックを行う回数・チェックを行う項目などを設定します。
手順4)データ加工(任意)
- 読み取ったデータを、特定のルールに基づいて変換します。
手順5)アウトプット設定
- 出力ファイル名の設定
- 出力するファイル名を設定します。
- 文字コードの指定
- 出力するファイルの文字コードを設定します(Shift-JIS / UTF-8)。
- CSVヘッダーの設定
- CSVヘッダーを出力するかどうかを設定します。
- CSVヘッダーを出力するかどうかを設定します。
3. ユニット作成
DX Suiteでは、データ化したい帳票を「ユニット」と呼ばれるフォルダにアップロードします。
ユニット作成の詳細な手順は「ユニット作成」をご参照ください。
<ユニットの特徴>
- ユニットは、あらかじめ作成したワークフローの下層に作成します。
- 帳票をデータ化するたびに、新しいユニットを作成します。
4. 読取チェック(任意)
読取チェックでは、各ユニット内の各帳票に対して、読み取った内容に間違いがないか目視で確認する作業です。
OCRによる読取結果が間違っていた場合は修正することができます。
読取チェック実施の有無や、具体的なチェック方法は、ワークフロー作成時に「データチェック」にて設定します。
<データチェックについて>
- データチェックの概要については「データチェックとは」をご参照ください。
- 詳細な設定手順は「データチェックの詳細」をご参照ください。
<読取チェック画面で確認できること>
実際に読取チェックを行う際は、以下2種類の方法でチェックが可能です。
-
通常チェック
- 1ページ、1項目ずつ順番に確認する方法。
-
一括チェック
- 同一項目をまとめて確認する方法。
- 誤っている内容を見つけやすくなるため、記載内容が数種類に限られる入力項目や、チェックボックスなどの同じ値が多く含まれる項目の確認に有効です。
▼通常チェックのイメージ
▼一括チェックのイメージ
<注意事項>
データ加工を行っている場合、読取チェックに表示される読み取り結果は、データ加工前の内容となります。
お困りの際は「データチェック画面でデータ加工が反映されない」をご参照ください。
5. ダウンロード
上記1~4が完了するとCSVダウンロードボタンが表示されます。
ダウンロード結果は、複数ユニットで一括ダウンロードすることも可能です。
※全文読取では、サーチャブルPDFやJSON形式でダウンロードすることも可能です。
詳細は「全文読取結果のダウンロード」をご参照ください。