本記事で分かること
- 誤読されやすい文字の具体例
- 文字の誤読を軽減・改善するための対処方法
誤読されやすい文字の例
DX Suite では、人の目で見ても判断が難しい文字および形状が似ている文字同士はAIが誤読する可能性があります。
以下は、特に誤読が発生しやすい代表的な組み合わせです。
- 1 と誤読されやすい文字:l I i | /
- 0 と誤読されやすい文字:O o ○ 〇 θ
- 4 と誤読されやすい文字:φ
- 手書きで誤読されやすい数字:7 9 6
※ 手書きや崩した書体では相互に誤読されることがあります
※ フォントや解像度、記載状態により誤読の発生頻度は変わります
対処方法1:文字列変換(部分一致)
読み取る文字列があらかじめ決まっている場合は、データ加工「文字列変換(部分一致)」を利用することで、誤認識されやすい文字を補正することが可能です。
例えば、英字の「O(オー)」が数字の「0(ゼロ)」として扱われるように変換設定を行うことで、出力結果の精度を向上させることができます。
対処方法2:ユーザ辞書
特定の文字列やパターンに対して継続的に誤認識が発生する場合は、「ユーザ辞書」の活用が有効です。
ユーザ辞書に登録することで、OCR結果に対して任意の置換ルールを適用でき、業務で扱う固有の表記や頻出パターンに対して安定した出力が可能になります。
ユーザ辞書は、「OCR補正」やデータ加工「ユーザ辞書置換」機能を用いて補正することが可能です。
対処方法3:文字列をまとめて読み取る
例)1文字ずつ読み取る設定で、一部の文字が認識されないケース
下記画像の [1112134] を1文字ずつ出力するため、読取範囲を [1][1][1][2][1][3][4] と1文字ずつ囲むが、[1] が罫線と認識されてしまい出力されない。
複数桁の数字を読み取る場合には、1文字ずつではなく数字全体を1つの読取範囲として設定する事で、[1] の読取精度が向上する場合があります。
1つの読取範囲で設定を行い、1文字ずつ分割して出力する方法を解説します。
設定方法
設定の流れ
- [1112134] を1つの読取範囲で囲む
- データ加工「文字列変換(部分一致)」を使用し、各数字の間に「@」を追加
- データ加工「指定文字による分割」を使用し、「@」を境目に数字を分割して出力
詳細
以下手順で設定をしてください。
1.番号を1つの範囲で読み取るための読取範囲を作成する。
2.データ加工「文字列変換(部分一致)」を使用し、各数字の間に「@」を追加する。
入力列
- (番号の読取列)
出力列
- (番号の読取列)
変換対象文字列
- (.)
変換後文字列
- $1@
※変換対象文字列の「(.)」とは、1文字毎を指定する正規表現です
※変換後文字列は、「@」以外の任意の記号も問題ありません
→この設定により「1112134」が「1@1@1@2@1@3@4@」に変換されます。
3.データ加工「指定文字による分割」を使用し、「@」を境目に数字を分割して出力する。
上記の設定で、1つの読取範囲で読み取った7桁の番号を、B~H列に1文字ずつ出力すると、下記のようなCSV出力結果となります。
解決しない場合
上記の方法で改善されない場合は、以下をご連携の上、お問い合わせください。
- 帳票定義(XMLファイル)
- アップロード帳票ファイル
- 希望とする出力結果のイメージ
※個人情報などが含まれる場合はマスキングをしてください。