概要
DX Suite では、数式や化学式に含まれる特殊な記号(∫や₂、²などの環境依存文字)は認識できません。
そのため、これらを扱う場合は、データチェック画面での修正や、データ加工機能と出力設定を組み合わせた補正を前提とした運用が必要です。
そのため、これらを扱う場合は、データチェック画面での修正や、データ加工機能と出力設定を組み合わせた補正を前提とした運用が必要です。
認識できない文字について
DX Suite のOCRモデルでは、以下のような文字は認識対象外となっています。
- 下付き文字(例:₂)
- 上付き文字(例:²)
- 数式記号(例:∫、√ など)
- その他の環境依存文字
そのため、例えば以下のように認識されます。
- 「H₂O」→「H2O」
※使用可能な文字は「DX Suite_クラウド AIOCR モデル仕様書」に準拠します。
データ加工での対応方法
認識後のデータは、データ加工機能を利用して変換することが可能です。
例:「文字列変換(部分一致)」を使用する場合
- 「2」を「₂」に変換する
- 「H2O」を「H₂O」に変換する
CSV出力時の注意
デフォルトのCSV出力(Shift-JIS)では、環境依存文字は正しく出力されません。
例: 「₂」→「?」
環境依存文字を正しく出力するには、以下の設定を行ってください。
1.データ加工で文字を変換
2.文字コードを「UTF-8」に変更
文字コードの設定方法は「アウトプット設定」をご参照ください。