事務のデータ入力作業をAIで削減:OCRとAIで帳票処理を自動化
OCRだけ入れて形式が合わず二重入力になった、というケースはよくあります。帳票は「どこまで読ませて、どこから人か」を切らないと、確認工数が増えるだけです。
事務職の方が毎日対応する「データ入力作業」は、入力フォーマットと例外を決めてから初めて、短縮に近づきます。tugiloが現場で使っている型をまとめます。
- OCRで読み取ったが、文字認識の精度が低くて手直しが多い
- 帳票の形式が統一されていなくて、自動化できない
- データの整合性が取れなくて、後で修正作業が発生
原因は「帳票の形式統一」と「データ検証ルール」を先に決めていないことです。
データ入力作業の「入力→処理→出力」を分解する
tugiloが現場で使う分解方法です。まず業務を3つに分けます。
Step 1:入力の整理
- 帳票の画像/PDFをOCRで読み取り
- 文字認識とデータ抽出(氏名、金額、日付、その他)
- 例外: 手書きが読みにくい、複数ページ、特殊フォーマット
Step 2:処理(データの検証・分類)
- データの妥当性チェック(金額、日付、必須項目)
- データの分類(科目、部門、プロジェクト)
- 例外: データが不完全、分類が不明確、検証エラー
Step 3:出力(データの登録)
- データベースへの登録(CSV、Excel、システム)
- データの整合性確認(重複チェック、エラーチェック)
- 例外: システムエラー、データの不整合、承認が必要
そのまま使える:データ入力プロンプトテンプレ
tugiloが実際に使っているプロンプトです。OCRで読み取ったデータを入力して、検証と分類を行います。
以下の帳票データを検証し、分類してください。
【OCRで読み取ったデータ】
- 氏名: [氏名]
- 金額: [金額]
- 日付: [日付]
- その他: [その他の情報]
【帳票の種類】
- 種類: [経費精算/出勤簿/その他]
- 部門: [営業部/開発部/管理部/その他]
【出力形式】
データの検証と分類を以下の形式で出力してください。
1. データの検証
- 必須項目の確認(氏名、金額、日付が入力されているか)
- データ形式の確認(金額が数値か、日付が正しい形式か)
- データの妥当性(金額が0円でないか、日付が未来日付でないか)
2. データの分類
- 科目: [経費/旅費/通信費/その他]
- 部門: [営業部/開発部/管理部/その他]
- プロジェクト: [プロジェクト名、該当する場合]
3. エラーチェック
- エラー項目: [エラーがある項目、該当する場合]
- エラー理由: [エラーの理由、該当する場合]
- 修正案: [修正案、該当する場合]
【注意事項】
- データが不完全な場合は、「要確認」フラグを付与
- データの整合性が取れない場合は、「要確認」フラグを付与
- OCRの読み取り精度が低い場合は、「要確認」フラグを付与
```
以下の経費精算書をOCRで読み取り、データを抽出してください。
【経費精算書の画像】
[画像をアップロード]
【出力形式】
- 氏名、金額、日付、摘要の抽出
- 科目の自動分類(経費/旅費/通信費/その他)
- データの検証(必須項目、データ形式、妥当性)
- エラーチェック(エラー項目、エラー理由、修正案)
- CSV形式での出力
```
運用の型:3段階の確認ルール
OCRとAIで処理したデータは、必ず3段階で確認します。これで「ミスを見逃す」リスクを最小化します。
第1段階:自動チェック
- 必須項目が入力されているか
- データ形式が正しいか(金額が数値か、日付が正しい形式か)
- データの妥当性(金額が0円でないか、日付が未来日付でないか)
所要時間: 自動(0分)
第2段階:AI判定
- OCRの読み取り精度(文字認識の正確性)
- データの分類の妥当性(適切な科目、部門に分類されているか)
- データの整合性(重複チェック、エラーチェック)
所要時間: 2分/件
第3段階:人間の最終確認
- 「要確認」フラグが付いたデータ
- 高額案件(一定金額以上)
- 新規取引先や特殊な要件
所要時間: 5分/件(全体の15%程度)
実践的なOCR設定方法
tugiloが実際に使っているOCR設定方法です。これに従うことで、読み取り精度が向上します。
1. 帳票の形式統一(事前準備)
- 帳票のフォーマットを統一する
- 手書きの場合は、読みやすい文字で記入してもらう
- 複数ページの場合は、ページ番号を付与する
2. OCRの設定
- 読み取り対象の領域を指定する
- 文字認識の言語を設定する(日本語、英語)
- 読み取り精度の閾値を設定する(80%以上)
3. データの検証ルール設定
- 必須項目の定義(氏名、金額、日付)
- データ形式の定義(金額は数値、日付はYYYY-MM-DD形式)
- データの妥当性チェック(金額の範囲、日付の範囲)
4. エラーハンドリング
- エラーが発生した場合の処理方法を定義する
- 「要確認」フラグが付いたデータの確認方法を定義する
- 修正後の再処理方法を定義する
帳票の形式統一:ベストプラクティス
tugiloが実際に使っているベストプラクティスです。これに従うことで、自動化が容易になります。
フォーマット統一
項目の配置: 氏名、金額、日付などの項目を固定位置に配置
文字の種類: 手書きの場合は、読みやすい文字で記入
ページ番号: 複数ページの場合は、ページ番号を付与
チェックボックス: 選択項目はチェックボックスを使用
データの形式統一
金額: 数値のみ、カンマなし(例: 50000)
日付: YYYY-MM-DD形式(例: 2026-01-15)
氏名: 姓と名を分ける(例: 山田 太郎)
その他: 摘要は50文字以内、科目は選択式
KPI:時間と精度を測る
tugiloが現場で測っている指標です。
データ入力時間: 2時間 → 30分(75%削減)
OCR読み取り精度: 70% → 90%(20ポイント向上)
データの整合性: 80% → 95%(15ポイント向上)
手戻り率: 25% → 5%(80%削減)
失敗を避ける:3つのチェックポイント
症状: OCRで読み取ったが、帳票の形式が統一されていなくて手直しが多い
対策: 最初に「帳票の形式統一」が重要。フォーマットを統一し、項目の配置を固定する。
症状: OCRで読み取ったが、文字認識の精度が低くて手直しが多い
対策: 「OCRの設定を最適化する」ことが重要。読み取り対象の領域を指定し、文字認識の言語を設定する。
症状: データを登録したが、整合性が取れなくて後で修正作業が発生
対策: 最初に「データ検証ルール」を決める。必須項目、データ形式、妥当性チェックを定義する。
実践的なエラーハンドリング方法
tugiloが実際に使っているエラーハンドリング方法です。
1. エラーの検出
- 自動チェックでエラーを検出
- AI判定でエラーを検出
- 人間の最終確認でエラーを検出
2. エラーの分類
- 軽微なエラー: 自動修正可能(例: 日付形式の変換)
- 中程度のエラー: AIで修正案を提示(例: 科目の分類)
- 重大なエラー: 人間が確認が必要(例: 金額の不一致)
3. エラーの修正
- 軽微なエラーは自動修正
- 中程度のエラーはAIの修正案を確認して修正
- 重大なエラーは人間が確認して修正
4. 修正後の再処理
- 修正後のデータを再検証
- 整合性を確認
- 問題がなければ登録
関連記事
まとめ
データ入力作業をAIで効率化するポイントは3つです。
- 帳票の形式統一を先に決める: フォーマットを統一し、項目の配置を固定
- OCRの設定を最適化する: 読み取り対象の領域を指定し、文字認識の言語を設定
- KPIで測る: 時間だけでなく、OCR読み取り精度も見る
「AIツールを入れる」だけでなく、運用の型を設計することが成功の鍵です。