ゼファーネットのロゴ

PDF を OCR する方法

日付:

OCR (光学式文字認識) は、PDF ドキュメントを扱うすべての人にとって革新的なツールです。 PDF は編集や検索が難しいことで知られています。 PDF を OCR すると、テキストが確実にスキャンおよび抽出され、完全に検索、編集、アクセスできるようになります。 

このガイドでは、要件に合った最適な方法を選択できるように、PDF を OCR 処理するさまざまな方法を比較します。 Adobe Acrobat、オープンソース ツール、AI を活用したソリューションについて説明します。さらに、Mac で PDF を OCR する方法、PDF OCR を検索可能にする方法、OCR の精度を向上させるためのヒントなど、よくある質問に答えます。

手順に従って PDF ワークフローを変革してください。

1. Adob​​e Acrobat Proの使用

Adobe Acrobat Pro は、PDF の OCR 処理のゴールドスタンダードとみなされます。 PDF ソフトウェアの業界リーダーである Adob​​e は、複雑な文書を簡単に処理できる高度な OCR 機能を Acrobat Pro に詰め込んでいます。

Acrobat Pro を使用してドキュメントを OCR するには、次の 2 つの方法があります。

方法1

  1. Adobe Acrobat Pro で PDF ファイルを開きます。
  2. ツールバーの「すべてのツール」をクリックします。
  3. メニューが表示され、利用可能なツールがすべてリストされます。 「PDFを編集」をクリックします。
  4. Acrobat は自動的に OCR を適用してテキストを変換します。
  5. これで、ドキュメントは完全に編集および検索できるようになりました。必要に応じてフォントを変更するか、注釈を追加します。検索ツールを使用してドキュメントを検索することもできます。

方法2

  1. Adobe Acrobat Proを開きます。 
  2. ツールバーの「すべてのツール」をクリックします。
  3. メニューが表示され、利用可能なツールがすべてリストされます。 「スキャンとOCR」をクリックします。
  4. スキャンと OCR ツールで、OCR する PDF ファイルを選択するか、接続されているスキャナーを使用して物理文書を直接スキャンします。
  5. 画像をクリーンアップする必要がある場合は、「強化」をクリックします。これにより、OCR の精度が向上します。 
  6. 「テキストを認識」をクリックして OCR プロセスを開始します。完了すると、PDF は検索および編集可能になります。テキストを編集できるようになりました。

Acrobat Pro を使用する本質的な利点は、複雑なレイアウト、複数列の文書、低解像度のスキャン、および手書きのテキストを高精度で処理できる高度な OCR エンジンです。 Windows、Mac、Android デバイスで利用でき、これらの機能にオンラインでアクセスすることもできます。さらに、Adobe Mobile Scan アプリに接続されているため、外出先でドキュメントをスキャンして Acrobat ライブラリに同期することができます。

ただし、OCR 機能にアクセスするには、Acrobat Pro サブスクライバーである必要があります。サブスクリプションの価格は US $ 19.99 /月。さらに、複数のファイルをアップロードできますが、各ファイルを 1 つずつ手動で OCR する必要があります。したがって、処理するファイルが多数ある場合は、面倒になる可能性があります。

Tesseract のようなオープンソース OCR ツールは、PDF を検索可能、編集可能なファイルに変換するための無料の代替手段を提供します。 Adobe Acrobat のような商用ソリューションほどフル機能は備えていないかもしれませんが、ほとんどのユースケースで適切なレベルの精度を提供します。 

Tesseract は Windows、Mac、Linux で利用できます。使用するには、まずコンピュータにインストールする必要があります。インストールしたら、次の手順に従って PDF を OCR できます。

  1. PDFelement などのビューアまたはエディタ ツールで PDF ファイルを開きます。 
  2. OCRしたい領域またはページを選択し、スクリーンショットを撮ります。必要に応じて画像をトリミングします。
  3. ターミナルを開いて Tesseract にアクセスします。 Tesseract がターミナルに見つからない場合は、Tesseract インストール ディレクトリを指すように環境変数のパスを編集します。
  4. OCRしたい画像ファイルのパスをコピーします。例: 「C:UsersJohnDoePicturesScreenshotsScreenshot 230844.png」
  5. ターミナルに次のコマンドを入力します:「C:UsersJohnDoePicturesScreenshots>tesseract Screenshot 230844.png」。これにより、画像に対して OCR が実行され、見つかったテキストが編集可能な形式に変換されます。 
  6. OCR が完了すると、Tesseract は抽出されたすべてのテキストを含むファイルを生成します。
  7. 任意のテキスト エディタでこのファイルを開き、OCR 処理されたコンテンツを表示および編集します。必要に応じて、コマンド「–help」を入力して Tesseract オプションの完全なリストを取得することもできます。

Tesseract の重要な利点は、完全に無料でオープンソースであるため、ライセンス料を支払う必要がないことです。クリーンなスキャンやタイプされた文書に適しています。 

ただし、手書きのテキスト、複雑なレイアウト、色付きの背景、低解像度のスキャンには苦労します。文書がきれいで入力されている場合、Tesseract は基本的な OCR ニーズを満たす無料のソリューションを提供します。 

OCR を実行する前にスキャンを前処理することで、明るさやコントラストの調整、フィルターの適用、画像のアップスケールなどを行うことで、Tesseract の精度を向上させることができます。

3. Nanonets の PDF OCR の使用

Nanonets は、高度な OCR 機能を提供する AI を活用した文書処理ソリューションです。 Acrobat Pro や Tesseract とは異なり、Nanonets は完全にオンラインであり、インストールは必要ありません。 PDF をクラウド プラットフォームにアップロードするだけで、最先端の OCR アルゴリズムを使用して即座に処理が開始されます。フォルダー全体や何百もの PDF を一度に処理することもできます。

Nanonets は、深層学習モデルを使用して、単純な入力ドキュメントから、手書きの注釈、色付きの背景、グラフ、表を含む複雑なレイアウトまで、すべてを処理して、すべてのドキュメント タイプで高精度を実現できます。

しくみはこうです:

  1. 訪問 Nanonets.com 無料のアカウントを作成します。
  2. Nanonets の請求書、領収書、注文書用の幅広い事前トレーニング済みモデルから OCR モデルを選択します。特定のドキュメント タイプに合わせたカスタム モデルを構築することもできます。
  3. 抽出する必要があるさまざまなレイアウトとデータ フィールドを表すドキュメントをアップロードします。 Nanonets はこれらのサンプルを分析して、文書の構造を理解します。
  4. 日付、合計金額、テーブル データなど、キャプチャするキー フィールドを定義します。テーブル、テキスト、JSON、XML など、ほぼすべての形式でデータをキャプチャできます。 Nanonets は PDF からデータを自動的に抽出し、必要な形式で出力します。
  5. 設定が完了したら、OCR 処理が必要な PDF ドキュメントをアップロードします。 Nanonets は、高度な OCR とインテリジェントなデータ抽出アルゴリズムを使用してファイルを処理し、構造化データ出力を備えた検索可能で編集可能な形式に変換します。 
  6. 抽出されたデータは、手作業なしで他のビジネス システムに直接取り込めるように、きちんと整理および構造化されています。 JSON、XML、またはカスタム形式としてエクスポートできます。

Nanonets は、無料でテストできるように、最大​​ 500 ページの処理が可能な無料バージョンを提供しています。それ以降は費用がかかります 1ページあたりの$ 0.3 OCR用。

他のソリューションとは異なり、Nanonets は拡張性が高くなります。 1 時間あたり数千ページを処理できるため、ボリュームに関係なく、ファイルはほぼ瞬時に処理されます。

Webhook を設定して、処理されたデータを他のアプリにストリーミングしたり、Nanonets の開発者 API を使用してカスタム統合を構築したりできます。

PDF OCR プロセスを改善する方法

OCR テクノロジーを効果的に実装すると、時間とリソースを節約できます。削減できることを想像してください フィールドあたりのデータ入力時間が 95% 短縮。チームは、日常的なデータ入力よりも有意義なタスクに集中できるようになります。

PDF OCR プロセスの精度と効果を向上させるためのヒントを見てみましょう。

1. OCRの前にスキャンを前処理する

スキャンしたドキュメントを扱う場合は、明るさ、コントラスト、シャープネスを調整し、フィルターや画像強調技術を適用してノイズを軽減し、鮮明さを向上させることができます。 

これにより、OCR の精度が大幅に向上します。 Adobe の Scanner アプリには、画像補正機能が組み込まれています。 PaperScan や NAPS2 などのツールを使用してスキャンをクリーンアップすることもできます。これらの編集後、OCR を実行する前に、編集した画像を PDF として保存できます。

2. 検証ワークフローと承認階層を設定する

抽出されたデータの検証ルールを設定してデータ品質を向上させます。たとえば、ドキュメント内の注文番号が 5 桁でない場合、その注文番号は自動的に拒否されるか、手動レビューのフラグが付けられます。こうすることで、抽出エラーを検出し、有効なデータのみを承認できます。 OCR システムをデータベースと統合して、抽出されたデータを検証することもできます。

承認階層を設定して、若手従業員が最初にデータを確認し、次に上級従業員が最終承認を行うように設定できます。自動通知とライブステータス更新により、透明性を維持し、承認の追跡を避けることができ、文書処理の高速化につながります。

3. 自動化されたワークフローを構築する

レンタカーを経営し、手動作業なしで顧客の運転免許証データを Salesforce に自動的にエクスポートしたり、請求書データを QuickBooks に送信したりできることを想像してください。 PDF OCR だけでなく、下流のアクティビティも最適化します。

API を介して OCR ソリューションをビジネス アプリと統合することで、この自動化が可能になります。たとえば、Nanonets を使用すると、ドキュメント処理の完了、データ抽出、新しいファイルのアップロードなどのイベントに基づいてトリガーを設定するだけです。この統合により、構造化データが Nanonets から目的のビジネス システム (QuickBooks、Xero、Microsoft Dynamics、Zendesk などを含む) に自動的にエクスポートされ、手作業が不要になり、システム間のシームレスなデータ フローが確保されます。

4. AI/ML 機能を備えた高度な OCR に投資する

ルールベースの OCR とは異なり、AI モデルは適応性があり、人間による修正から継続的に学習し、時間の経過とともに改善されます。たとえば、Nanonets は、数百万のドキュメントでトレーニングされた独自の AI モデルを提供し、複雑で困難なレイアウトを効率的に処理できるようにします。

AI を活用した OCR により、コンテキストを失うことなくドキュメントから情報を抽出できます。さまざまな言語、通貨単位、法律単位、または測定単位を処理できます。このレベルのインテリジェンスは、フィールドの正確な位置に依存するテンプレートベースまたはルール駆動の抽出では不可能です。

5. AI-OCR モデルをトレーニングする

AI を活用した OCR ソリューションには事前トレーニングされたモデルが付属していますが、特定の文書タイプとレイアウトに基づいてモデルをさらにトレーニングすると、精度をさらに高めることができます。たとえば、Nanonets を使用すると、キャプチャしたいさまざまなテンプレート、形式、フィールドを表すドキュメントのサンプル セットをアップロードできます。

これらのサンプルは、モデルがドキュメントの構造を理解し、PDF OCR プロセスを微調整するのに役立ちます。検証中に特定された抽出エラーを修正してフィードバックを提供することもできます。この人間参加型トレーニングにより、AI モデルのパフォーマンスが継続的に向上します。

6. 必要に応じてカスタム OCR モデルを構築する

場合によっては、事前トレーニングされたモデルがドキュメント内の複雑さをすべてカバーできない場合があります。たとえば、独自のフィールドと形式を持つ業界固有のドキュメントがあるとします。このような場合は、OCR ベンダーと協力して、ドキュメントに特化してトレーニングされたカスタム AI モデルを構築できます。 

Nanonets を使用すると、ユーザーはドキュメントの種類と抽出するフィールドに固有のカスタム モデルを作成できます。サンプルドキュメントをアップロードし、抽出したいラベルで注釈を付けることができます。 AI はこれらの例から学習し、指定された情報を認識して抽出するようにトレーニングされます。システムが最適な精度を達成するには、ラベルごとに少なくとも 10 個のサンプルが必要です。ユーザーはラベルごとのサンプルの数を監視し、必要に応じてサンプルを追加できます。

Nanonets PDF OCR を始める方法

Nanonets を使用すると、PDF OCR を簡単に始めることができます。 Nanonets Web サイトで無料アカウントにサインアップするだけです。クレジット カードを提供する必要はありません。 

始めるのに役立つガイドは次のとおりです。

  1. 無料アカウントにサインアップする:訪問 Nanonets.com 無料のアカウントにサインアップしてください。クレジット カードは必要ありません。
  2. モデルを作成または選択する: 特定のドキュメント タイプに合わせてカスタム OCR モデルを構築したり、請求書や領収書などの Nanonets の事前トレーニング済みモデルから選択したりできます。
  3. 自動インポートを設定する: 電子メールを転送するか、クラウド ストレージに接続して、新しい PDF を Nanonets にインポートし、継続的な OCR 処理を自動的に実行します。
  4. サンプルドキュメントをアップロードする: 抽出するさまざまなテンプレート、形式、データ フィールドを表すサンプル ドキュメントを少なくとも 10 個アップロードします。これは AI モデルのトレーニングに役立ちます。
  5. 抽出するフィールドを定義する: 日付、金額、表データなど、文書から抽出したい重要なデータフィールドの名前を指定するだけです。
  6. 検証を設定する: 抽出されたデータを検証し、正確性を確保するために修正のためにエラーにフラグを付けるルールを構成します。
  7. ファイルを処理する: PDF ドキュメントをアップロードします。 Nanonets は、OCR とインテリジェントなデータ抽出を使用してそれらを即座に処理します。
  8. データのレビューと承認: 抽出されたデータを確認し、有効なエントリを承認します。ステータス更新により透明性を維持します。
  9. ビジネスシステムへのデータのエクスポート: 承認されたら、構造化データを ERP、会計、CRM、またはその他のシステムにシームレスにエクスポートします。
  10. ワークフローを自動化する: ドキュメントの処理時またはデータの抽出時にアプリにデータをストリーミングするトリガーを設定します。手動作業を排除します。

全体として、Nanonets を使用すると、ドキュメント ワークフローにインテリジェントな OCR 機能を迅速かつ簡単に追加できます。自己学習 AI エンジンは最初から高い精度を実現し、複雑なドキュメントを処理するためのカスタマイズも可能です。ビジネス システムとのシームレスな統合により、真のエンドツーエンドの自動化が可能になります。

包み込む

インテリジェントな OCR とデータ抽出は、ドキュメント ワークフローから多大な価値を引き出すのに役立ちます。重要なのは、最初から AI を活用した OCR を提供し、特定のニーズに合わせてカスタマイズできる Nanonets のようなソリューションを選択することです。 

カスタム モデルを構築するセルフサービス機能により、ドキュメントが進化しても精度と自動化が継続的に向上します。最終的には、非構造化データを大規模に処理して生産性と成長を促進できるようになります。

スポット画像

最新のインテリジェンス

スポット画像