代表的な帳票レイアウトをもとに、項目抽出における「日本語特化読取」と「汎用読取」の選び方を解説します。
読取特徴とは
読取特徴とは、帳票のレイアウトや文字の種類に応じて、最適な読み取り処理を適用する仕組みです。「日本語特化読取」と「汎用読取」の2種類から選択できます。
-
日本語特化読取
- 罫線で区切られた表や日本語処理、手書き文字の処理に適しています。
-
汎用読取(デフォルト)
- 罫線のない表や色付きテキスト、多言語帳票の処理に適しています。
以下にて、代表的な帳票例をご紹介します。
| 日本語特化読取 | 汎用読取 | |
| 罫線がある帳票 | ◎(最適) | 〇 |
| 罫線が少ない帳票 | △ | ◎(最適) |
| 手書きのみの帳票 | ◎(最適) | △ |
| 手書きと活字が混在している帳票 | 〇 | △ |
| 日本語以外の活字帳票 | 〇 | ◎(最適) |
| 押印が重なっている帳票 | △ | ◎(最適) |
| 画質が悪い帳票 | △ | △ |
ご利用のヒント:どちらを選ぶか迷った時は
どちらの読取特徴を選べばよいか迷った際は、「読取テスト」をご活用ください。
帳票をアップロードすると、設定している読取特徴での読取結果が確認できます。
※ 読取テストは実行するごとに1ページ分の課金が発生します。読取テストの失敗の場合は、課金されません。
<罫線がある帳票>
例)納品書など
納品書など、縦横の罫線がある帳票の読み取りは「日本語特化読取」が適しています。
<罫線が少ない帳票>
例)医療費明細書、診療明細書など
横の罫線がなく、1つの枠の中に複数行のテキストが記載された帳票は「汎用読取」が適しています。
汎用読取は、罫線がなくてもテキストを行として認識することが得意です。
例)財務諸表など
罫線がまったく無い帳票も「汎用読取」が適しています。
帳票上に「勘定科目」という記載がなくても、明細項目名に「勘定科目」と入力するだけで、目的の内容のみを抽出することが可能です。
(流動資産合計、非流動資産合計、資産合計を除いた科目のみを抽出可能です。)
※補足
汎用読取は罫線のない帳票に対する認識が得意です。
高精度で認識した帳票情報をもとに、AI が目的の内容のみを抽出することができます。
例)フリースペースがある帳票
フリースペース内に記載された文字の読み取りは、活字・手書きを問わず、「汎用読取」が適しています。
データ化画面にて通常項目に「商品」「数量」「値引き前単価」「値引き後単価」と入力すると、該当の文字列を抽出することができます。
<手書きのみの帳票>
手書きの帳票を読み取りたい場合は、「日本語特化読取」が適しています。
<手書きと活字が混在している帳票>
手書きと活字が混在している帳票を読み取りたい場合は、「日本語特化読取」にてお試しください。
※以下は、住所や会社名、伝票番号が活字の帳票です。
<日本語以外の活字帳票>
例)海外の請求書など
日本語以外の活字で記載された帳票は「汎用読取」が適しています。
汎用読取は多言語に対応していますので、ご希望の言語が読み取れるかどうか「読取テスト」にてお試しください。
<押印が重なっている帳票>
例)納品書など
テキストと異なる色の押印が重なっている帳票は、「汎用読取」が適しています。
以下の例の場合、印鑑の文字を除外して「¥618,200」を読み取ることができます。
<画質が悪い帳票>
解像度や画質が悪い帳票は、「日本語特化」「汎用読取」どちらを選択しても読取精度が低くなる傾向にあります。特に、帳票上に汚れがある場合は、汚れを文字として認識してしまう可能性もあります。
そのため、アップロードする帳票ファイルは300dpi 程度を推奨します。
※帳票の状態によって結果が異なるため、確実に精度向上を保証するものではございません。予めご了承ください。
※アップロードする帳票ファイルの仕様は「DX Suite にアップロードできるファイルの仕様について」もご参照ください。