ゼファーネットのロゴ

OCRとディープラーニングによる請求書処理の自動化

日付:


概要

長い間、私たちは支払いを処理し、アカウントを維持するために紙の請求書に依存してきました。 請求書の照合には、通常、誰かが手動で何時間もかけて複数の請求書を閲覧し、元帳に書き留める必要があります。

しかし、このプロセスは、紙、人的労力、および時間の浪費を減らして、より良く、より効率的に行うことができますか?

これらの手順を手動で実行することのいくつかの欠点の中には、コストの増加、必要な人員の増加、反復タスクにかかる時間の増加、および二酸化炭素排出量の増加があります。

請求書のデジタル化のプロセスは、4つのステップに分けることができます。

  1. 物理的なドキュメントをデジタルバリアントに変換する–これは
    • 請求書スキャン
    • カメラを通して画像をクリックする
  2. 情報抽出–これは次の方法で実行できます。
    • 人間–請求書のエラーを分析し、その中のテキストを読み、保存して将来取得するためにソフトウェアに入力するレビュー担当者が手動で行います。
    • 機械–
      • 光学式文字認識–ドキュメントに存在するテキストと数字を認識します。
      • 情報抽出– OCRのプロセスが完了したら、どのテキストがどの抽出フィールドに対応するかを特定することが重要です。 フィールドが合計、小計、請求書の日付、ベンダーなどの場合。
  3. データダンプ–情報が抽出されたら、次のような取得可能な形式で保存する必要があります。
    • データベース
    • エクセルシート
    • ERPシステム。

この投稿では、主にOCRと情報抽出に焦点を当てます。 OCRの現状と請求書処理における情報抽出の何が問題になっているのかを説明する前に、まず請求書のデジタル化に注意を払う必要がある理由を見てみましょう。


Nanonetsはサポートします 請求書の取得 60以上の言語で。 独自のモデルを作成するか、今すぐデモをリクエストしてください。

Nanonets for Automationの使用を開始する

今すぐモデルを試すか、デモをリクエストしてください!

今すぐやってみて下さい


なぜ請求書をデジタル化するのですか?

情報のデジタル化には、企業がいくつかの理由で得ることができるいくつかの利点があります。 企業はプロセスをより適切に追跡し、より優れた顧客サービスを提供し、従業員の生産性を向上させ、コストを削減することができます。

請求書テンプレート

自分のビジネスの請求書をデジタル化することを検討する必要がある理由は次のとおりです。

  1. プロセスを自動化するには
    ディープラーニングとOCRを使用すると、これらの請求書画像を自動的に取得し、そこから表とテキストを抽出し、さまざまなフィールドの値を抽出し、エラーを修正し、製品が承認可能な在庫と一致するかどうかを確認し、すべてがチェックアウトされた場合に請求を処理できます。 これは、保険業界がこれまで行ってきたことからの大きな飛躍ですが、それでも非常に有益であることが証明できます。
  2. 効率を上げるには
    請求書をデジタル化することにより、いくつかのプロセスをはるかに高速かつスムーズにすることができます。 たとえば、商品の正規のベンダーを数社取引し、月末に支払いを処理する小売店チェーンを考えてみましょう。 このストアは、請求書処理のプロセスを自動化することにより、多くの時間を節約できます。 ベンダーは、アプリまたはWebサイトに請求書をアップロードするだけで、画像が請求書全体のものである場合、画像が偽物であるかデジタル操作されている場合など、画像の解像度が高いかどうかについて即座にフィードバックを得ることができます。時間。
  3. コストを削減するには
    同じ小売店のフランチャイズは、OCRとディープラーニングを使用して請求書のデジタル化を自動化することにより、多くのお金を節約します。 エラーが発生しないようにXNUMX人のレビュー担当者の手に渡らなければならない請求書はXNUMXつに減ります。 コンピューターで処理される請求書の数は、人間が処理できる数の数倍です。 この時間には、請求書が不正であるかどうか、すべての情報が含まれているかどうか、すべての情報が正しいかどうかの確認、すべてのデータをスプレッドシートまたはデータベースに手動で入力し、計算を実行して、最後に支払いを処理することが含まれます。
  4. より良いストレージのために
    紛争が発生した場合、ベンダーはアプリにアクセスして、アップロードしたすべての請求書と各請求書の後処理結果を確認し、商品、数量、それぞれの費用、税金、割引について説明します。 このデータをデータベースに入力するプロセスを自動化した同社は、いつでもこの情報を取得できるようになりました。
  5. 顧客満足度を高めるために
    同様の方法での請求書処理は、企業が顧客サービスを改善するのにも役立ちます。 製品が不足しているeコマースプラットフォームからの配信ですか? 彼らに連絡し、請求書を送り、不足しているものを説明すると、会社は自動的に領収書を読み、倉庫に残っているものを見つけて、不足している製品が現在準備中であることを示す応答を送信します!
  6. エコロジカルフットプリントを削減するには
    行われたようないくつかの簡単な計算を行う こちら 月に50000の請求書を処理する中規模の組織は、最終的に30年に2.5本以上の木を犠牲にすることになります。 この数は、ほとんどの場合、請求書が重複しているために増加します。 これと同じ量の紙を製造するには、XNUMX万リットルの水も必要になります。 このような状況では、エコロジカルフットプリントを削減するために組織が必要とする措置を講じることは、環境を支援する上で大いに役立つ可能性があります。

請求プロセスの進化

請求書を確認するプロセスは、時間の経過とともに大きく進化しました。 テクノロジーの成長により、請求書処理のプロセスはXNUMXつの主要なフェーズを経ています。

フェーズ1:手動レビュー

組織がその月の費用を通常のベンダーに払い戻すプロセスを実行しているユースケースを考えてみます。

請求書を処理するには、次の手順に従います–

  1. 人々は、関係する組織の連絡先に直接、いくつかの請求書を提出することが期待されています。
  2. この担当者は、すべての請求書をレビュー担当者に転送し、レビュー担当者はすべてのドキュメントを完全にレビューします。 これには、購入者の名前、購入元の店舗名、購入日時、購入したアイテム、その費用、割引、税金などの各詳細をソフトウェアに書き留めたり入力したりすることが含まれます。
  3. 再度手動で、またはデータ入力ソフトウェアが会計目的のために特別に設計されている場合は、当該ソフトウェアを使用して計算された各請求書の合計。
  4. 最終的な請求書/領収書は最終的な数字で作成され、支払いが処理されます。

フェーズ2:請求書スキャンと手動レビュー

OCR技術の出現により、自動的に多くの時間が節約されました デジタル画像からテキストを抽出する 請求書またはドキュメントの。 これは、現在、あらゆる形式の自動化にOCRを使用しているほとんどの組織が存在する場所です。

  1. 請求書のデジタルコピーは、請求書をスキャンするか、カメラを使用して写真を撮ることによって取得されます。
  2.   テキストが抽出されます OCRを使用してこれらの請求書から。 これにより、データ入力を少し簡単にするデジタルテキストを提供できます。 しかし、それでも多くの作業を手動で行う必要があります。
  3. 各請求書のOCR結果を適切に解析して、関連するデータを見つけ、関連しないデータを破棄する必要があります。
  4. これが完了したら、データをソフトウェアに入力する必要があります。ソフトウェアは、レビュー担当者にタスクを簡単にするためのテンプレートを提供します。 このテンプレートは、各ユースケース、組織、および主にさまざまな種類の請求書ごとに固有です。 OCRプロセスは請求書の処理に役立ちますが、OCRの結果が構造化されていないため、面倒な部分の多くは解決されません。
  5. 入力されたデータは、エラーを修正するために手動で確認されます。 このプロセスは、現在利用可能なOCRツールのパフォーマンスが低いため、複数のレビュー担当者を経由するため、時間がかかります。
  6. 最後に、計算が行われ、支払いの詳細が財務部門に転送されます。

請求書をより適切にデジタル化する方法は?

OCRとディープラーニングを使用することで、マシンのパフォーマンスも向上し、場合によっては人間よりも優れたパフォーマンスを発揮できるようになりました。

請求書のデジタル化には、人間が管理するいくつかの手順が含まれます。

  1. ユーザーが撮影してアップロードした請求書のデジタル画像。
  2. さらなる処理に適していることが確認された画像–良好な解像度、画像に表示されるすべてのデータ、確認された日付など。
  3. 画像は詐欺をチェックしました。
  4. これらの画像のテキストは、適切な形式で抽出および配置されています。
  5. 表、スプレッドシート、データベース、貸借対照表などに入力されたテキストデータ。

フェーズ3:ディープラーニングとOCR

ディープラーニングのアプローチでは、テキストを読み、画像から構造化情報と非構造化情報を抽出するという特定の問題が進展しています。 既存の深層学習手法を光学式文字認識テクノロジーと統合することにより、企業や個人は次のプロセスを自動化することができました。 ドキュメントのデジタル化 また、手動でのデータ入力手順が簡単になり、ロギングと保存が改善され、エラーが減少し、応答時間が短縮されました。

市場やオープンソースコミュニティでは、そのようなタスクのためにいくつかのツールが利用可能であり、すべて長所と短所があります。 それらのいくつかは、Google Vision API、Amazon Rekognition、Microsoft CognitiveServicesです。 最も一般的に使用されるオープンソースツールは 注意-OCR & Tesseract.

これらのツールはすべて同じように不十分です。精度が低く、手動でエラーを修正する必要があり、次のルールベースのエンジンが必要です。 テキスト抽出 実際にデータを意味のある方法で使用できるようにするため。 これらの問題については、次のセクションで詳しく説明します。

何が問題を面白くしているのですか?

  OCRランドスケープ ほとんどの場合、パターンを照合するか、OCR結果を強制的に適合させる特定のテンプレートを定義することにより、OCR結果の後処理に大きく依存するルールベースのエンジンで構成されます。このアプローチはある程度の成功を収めていますが、その上にソフトウェアのレイヤーを構築する必要があります。リソースを消費するタスクであるOCRエンジン。

このルールベースのアプローチの大きな問題は、新しい請求書テンプレートを処理するたびに、この追加されたソフトウェアのレイヤーを再設計する必要があることです。 OCRとともにテンプレート作成プロセスを自動化すると、請求書を扱うすべての人に大きな影響を与える可能性があります。

そしてそれは私たちが抱えている問題です ナノネット 解決することを決心した。

この問題に対するあまり知られていないアプローチには、機械学習を使用してドキュメントまたは請求書自体の構造を学習し、データを操作し、オブジェクト検出の問題を解決するかのように最初に抽出する必要のあるフィールドをローカライズすることが含まれます(およびOCRではありません)そしてそれからテキストを取得します。 これは、テーブルを識別して抽出する方法、テーブルに存在する列とフィールド、フォーマットに関係なく請求書に一般的に見られる列とフィールドを理解する方法を学習する方法でニューラルネットワークをモデル化することによって行うことができます。

このようなアプローチの利点は、あらゆる種類のドキュメントや請求書に一般化でき、カスタマイズせずにそのまま使用できる機械学習モデルを作成できることです。 新しいデータを収集し、モデルを定期的に再トレーニングすることで継続的な学習ループを追加すると、多種多様なデータで優れたパフォーマンスを発揮できます。

すべての利点があっても 自動請求書処理 提供する必要がありますが、業界ではOCRとディープラーニングテクノロジーが広く採用されておらず、いくつかの理由があります。

例を挙げて理解してみましょう–処方箋と請求書を扱う健康保険会社。 ユーザーが携帯電話やコンピューターで写真を撮ったり、請求書をスキャンしたりして請求書の画像をアップロードできるようにすることで、保険会社の請求処理を自動化すると、顧客の利便性が高まり、顧客をさらに引き付けることができます。 これらのアップロードされた画像は通常、数回の手動レビューを経て、請求書が合法であるかどうか、領収書に記載されている製品が保険金請求に有効かどうかなどを確認します。ただし、請求書処理の自動化により、これらのタスクは手動で行うのにかかる時間の何分の50かで、必要な人員を少なくともXNUMX%削減して行うことができます。

しかし、業界のユースケースに従って機能し、エラーが予算の多くを消費しないようにしながら自動化を推進し、顧客のオンボーディング率を高めるようなエンドツーエンドのアプローチを構築するには、障害があります。

OCRテクノロジーの精度

現在、市場で入手可能な最高のOCRツールは、これらのAPIをあらゆるユースケースに大規模に適用するのに十分なパフォーマンスを発揮していません。 これによれば 記事, Google ビジョン、最高の OCR API 現在入手可能なものは、80%の精度しか提供できません。 のような市場の他の製品の精度 Amazonの再認識 とマイクロソフトコグニティブサービスは陰気です。 Microsoftは65%の精度で実行しましたが、AWSの認識は21%の精度でしか実行しませんでした。

source

これは、これらのAPIが、企業が最も使用する特定のデータのカスタムトレーニングを許可しないという事実によってさらに悪化します。 精度の点で人間よりもパフォーマンスが悪いソフトウェアに投資しても、手動入力、手動エラー修正、手動レビューが必要なため、時間とお金の無駄のように思われます。

ディープラーニングの専門知識

Google VisionのようなOCR製品は、さまざまな向き、さまざまな言語、影のあるテキスト、またはノイズの多いテキストを処理する必要がある場合、いくつかの欠点に直面します。 データを使用してカスタムモデルを構築することはできないため、製品を組織のワークフローに直接統合することは困難です。 多くの場合、このような問題を回避するには、組織はデータサイエンスまたは機械学習チームを雇い、これらのツールを自分たちで構築する必要があります。 これには時間、お金、労力がかかります。

これに続いて、データサイエンティストは、知識と専門知識を会社の目標に合わせ、それらの結果を提供するために最適化するメトリックを正確に把握する必要があります。 これには、データサイエンティストがビジネスの提案を理解し、それを数学の問題に変え、会社のSLAを理解し、適切なデータを見つけ、機械学習モデルを構築し、エラーケースも適切に処理されるようにしながら、必要な精度を得るためにそれらを調整する必要があります。 。

適切なデータの取得

適切な機械学習モデルを構築する上で非常に重要な部分は、適切なデータを見つけることですが、作業するのに十分なデータがありません。 ナンバープレート認識や手書き認識などのタスクでOCRに使用できるデータセットはありますが、これらのデータセットは、保険金請求処理やベンダー返済の割り当てに必要な精度を得るのに十分ではありません。

これらのユースケースでは、モデルを構築し、最も処理するデータの種類に基づいてモデルをトレーニングすると同時に、エラーを最小限に抑え、データセットのバランスをとる必要があります。 たとえば、医師からの処方箋や小規模ベンダーからの領収書を扱うには、手書きのテキストドキュメントだけでなくデジタルでもうまく機能するモデルが必要です。

計算リソース

社内のMLソリューションを構築するタスクには、最高の機械学習エンジニアを雇って、最高の精度でアルゴリズムを設計するだけではありません。 画像データに基づいてモデルを構築するための計算要件は高く、通常、オンプレミスまたはオンクラウドのいずれかのGPUが含まれます。 Google CloudPlatformでK-80GPUインスタンスを実行するには、月額約230ドルかかります。 モデルをトレーニングしたり、古いモデルを新しいデータで再トレーニングしたりする必要がある場合、これらのコストは急上昇します。

社内ソリューションの構築が選択したアプローチである場合、それを構築するコストは、サインアップする顧客の数の増加、請求書の処理速度の増加、および必要な手動レビュー担当者の数の減少によって補われる必要があります。

ビジネスニーズに合わせたソリューションの調整

たとえば、ベンダーの返済システムを構築するには、いくつかの手順を含める必要があります。 組織のニーズに合ったワークフローを見つけることは、優れた精度を提供する機械学習モデルを構築することと同じではありません。

必要なのは、次のことができるモデルです。

  1. 少なくとも人間レベルの精度を提供する
  2. あらゆる種類のデータを処理できます
  3. エラー処理に対応
  4. 人間による監視の利便性を高める
  5. データ処理ステップに透明性を提供する
  6. 詐欺をチェックする
  7. OCR結果を後処理して構造に配置できるようにする
  8. 必要なすべてのフィールドがあり、値が正しいことを確認してください
  9. このデータの簡単な保存とデータベース化を可能にする
  10. 結果に応じて通知手順の自動化を許可する

ご想像のとおり、これは長くて難しい手順であり、多くの場合、それほど単純な解決策はありません。

ナノネットに入る

ナノネット 機械学習の才能を見つけたり、モデルを構築したり、クラウドインフラストラクチャやデプロイを理解したりする必要はありません。 必要なのは、ソリューションが必要なビジネス上の問題だけです。

使いやすいWebベースのGUI

Nanonetsは、APIと通信する使いやすいWebベースのGUIを提供し、モデルを作成し、データでモデルをトレーニングし、精度や精度などの重要なメトリックを取得し、画像で推論を実行することができます。コードを記述する必要はありません。

クラウドでホストされているモデル

すぐに使用できるソリューションを取得するために直接使用できるいくつかのモデルを提供するだけでなく、ユーザーはクラウド上でホストされ、推論目的でAPIリクエストを使用してアクセスできるモデルを構築できます。 トレーニング用のGCPインスタンスやGPUの取得について心配する必要はありません。

最先端のアルゴリズム

構築されたモデルは、最先端のアルゴリズムを使用して、最良の結果を得ます。 これらのモデルは絶えず進化し、より多くのより良いデータとより良いテクノロジー、より良いアーキテクチャー設計、そしてより堅牢なハイパーパラメーター設定でより良くなります。

請求書のデジタル化製品を構築する上での最大の課題は、抽出されたテキストに構造を与えることです。 これは、必要なすべてのフィールドを値で自動的に抽出し、それらをテーブルまたはJSON形式に配置して、簡単にアクセスおよび構築できるようにするOCR APIによって簡単になります。

自動化駆動

Nanonetsは、請求書のデジタル化などのプロセスを自動化することで、金銭的利益、顧客満足度、従業員満足度の点で組織に大きな影響を与えることができると考えています。 Nanonetsは、機械学習をユビキタスにすることを目指しており、そのために私たちの目標は、将来、人間の監督と予算を最小限に抑えながら、解決したビジネス上の問題を解決することです。

Nanonetを使用したOCR

  Nanonetsプラットフォーム OCRモデルを簡単に構築できます。 データをアップロードし、注釈を付け、トレーニングするようにモデルを設定し、XNUMX行のコードを記述したり、GPUを心配したり、ディープラーニングモデルに適したアーキテクチャを見つけたりせずに、ブラウザーベースのUIを介して予測を取得するまで待機できます。

更新:私たちのモデルはさらに正確です。 請求書の自動化ワークフローをさらに改善するために、PO番号、メールID、テーブル抽出などの新しいフィールドを追加しました.

Nanonetsで請求書のデジタル化を開始 –1クリックデジタル化:

Nanonets for Automationの使用を開始する

今すぐモデルを試すか、デモをリクエストしてください!

今すぐやってみて下さい

デモをセットアップする

デモをセットアップして、Nanonetsがこの問題の解決にどのように役立つかを学ぶ

出典:https://nanonets.com/blog/invoice-ocr/

スポット画像

最新のインテリジェンス

スポット画像