AcrobatのOCR機能についてお探しですね。

広告

紙の書類をスキャンしたPDFが検索できない?Adobe AcrobatのOCR機能で解決する方法

紙の契約書や申込書をスキャンしてPDFにしたのに、いざ検索しようとしたら何もヒットしない…そんな経験ありませんか?実は、スキャンしたばかりのPDFは、見た目は文字でも中身は「ただの画像」になっていることがほとんどなんです。

だから文字検索もコピーもできません。

そこで役に立つのが、Adobe AcrobatのOCR(テキスト認識)機能です。

この記事では、スキャンした紙の書類を検索できるPDFに変える方法と、場合によってはOCRを使わない選択肢についても、わかりやすく説明していきます。

1. スキャンしたPDFが検索できないのはなぜ?OCRって何?

紙の書類をスキャナーや複合機でPDFにすると、たいていの場合「文字が写っている写真」として保存されます。

画面で見ると普通の文書に見えるんですが、PDF内部には「契約」「請求書」といった文字情報が入っていないんですね。

だからAcrobatの検索機能で言葉を探そうとしても、何も見つからないわけです。

つまり、見た目は文書でも、コンピューターからすると写真と同じ扱いになっているということです。

この問題を解決してくれるのが「OCR」という技術です。

OCRは「Optical Character Recognition」の略で、日本語だと「光学文字認識」とか「テキスト認識」って呼ばれています。

AcrobatのOCR機能を使うと、スキャン画像の中にある文字の形を読み取って、PDF内に検索できるテキスト情報を追加してくれます。

これで紙から取り込んだ書類でも、キーワード検索や文字のコピーができるようになるんです。

特に契約書、議事録、請求書、領収書、マニュアルなどを大量に扱う場合、OCRがあるかないかで作業効率がガラッと変わります。

たとえば数十ページある契約書の中から「解除」「損害賠償」という言葉を探すとき、OCR済みなら数秒で該当箇所にジャンプできます。

でも画像のままだと、全ページを目で追っていくしかありません。

見落とすリスクも高くなりますよね。

ただし、OCRは万能じゃありません。

スキャンの画質が悪かったり、文字が斜めになっていたり、影が入っていたり、手書き文字が多かったりすると、うまく認識できないこともあります。

だからAcrobatでOCRをかける前に、できるだけきれいな状態でスキャンしておくことが大事です。

文字中心の書類なら300dpi程度で読み取って、傾きを直したり余白を整えたりしておくと、認識精度が上がりやすくなります。

2. AcrobatでOCRを実行して検索できるPDFにする手順

AcrobatでスキャンしたPDFを検索可能にするには、「スキャンとOCR」または「テキスト認識」という機能を使います。

バージョンによって画面が少し違うこともありますが、基本的な流れは同じです。

まず対象のPDFをAcrobatで開いて、ツール一覧から「スキャンとOCR」を選びます。

そして「テキスト認識」や「このファイル内」を選んで、対象ページや言語を設定してから実行します。

日本語の書類をOCRにかけるときは、認識言語を必ず日本語に設定しましょう。

英語のまま実行すると、日本語部分がうまく認識されなかったり、変な文字化けが起きたりすることがあります。

日本語と英語が混ざっている文書なら、両方の言語を設定できる場合もあります。

社内資料やマニュアルみたいに、日本語の中に英単語や型番が入っている書類では、言語設定をチェックしてから実行するといいですよ。

OCRを実行するときは、出力形式にも注目してください。

Acrobatでは、元の画像の見た目をそのまま保ちながら裏側にテキスト情報を埋め込む形式と、文字と画像を編集しやすい形に変換する形式が選べます。

検索だけが目的なら、「検索可能な画像」みたいな設定が向いています。

逆にPDF内の文字を後から編集したいなら、編集可能なテキストに変換する設定を使います。

ただし編集可能な形式だとレイアウトが崩れることもあるので、原本として保管したい書類では慎重に選んでください。

基本的な手順をまとめると、こんな感じです。

– AcrobatでスキャンしたPDFを開いて、「スキャンとOCR」か「テキスト認識」を選ぶ
– 対象ページ、認識言語、出力形式を確認してOCRを実行
– 終わったら検索ボックスで言葉を入れて、ちゃんと検索できるか試してみる

OCRが終わったPDFは、普通のPDFと同じように保存できます。

元のファイルも残しておきたいときは、「別名で保存」を使ってOCR済みファイルを別の名前にしておくと安心です。

特に法務・経理・総務で扱う重要書類では、スキャン直後の原本画像PDFと、OCR処理後の検索用PDFを分けて管理するやり方も効果的です。

OCRで多少の誤認識があっても、元データが残っていれば後から確認できますからね。

3. OCRの精度を上げるコツと、検索可能PDFを使うときの注意点

AcrobatのOCR精度を高くするには、ソフトの設定だけじゃなくて、スキャンするときの品質がすごく大事です。

元の画像がぼやけていたら、どんなに優秀なOCRでも正確に文字を読み取るのは難しくなります。

紙の書類をスキャンするときは、折れ目や影をできるだけ避けて、文字が斜めにならないようにセットしましょう。

薄い文字や小さい文字が多い書類なら、解像度を高めに設定すると認識しやすくなります。

ただしファイルサイズが大きくなるので、そこは注意してください。

それと、OCR済みのPDFは「検索できるようになる」のが大きなメリットですが、検索結果が100%正確とは限りません。

たとえば数字の「1」とアルファベットの「l」、数字の「0」とアルファベットの「O」、濁点のある日本語、かすれた印字、表の中の小さな文字なんかは、間違って認識されることがあります。

だから契約条項や金額、日付、個人情報みたいな重要な情報を確認するときは、検索結果だけを信じないで、表示されている元の画像も一緒に確認することが大切です。

検索できるPDFを仕事で使うなら、ファイル名やフォルダの整理もセットでやっておくと効果が上がります。

OCRでPDF内部の文字検索ができるようになっても、保存場所がバラバラだったり、ファイル名が「scan001.pdf」のままだったりすると、目的の書類を見つけるまでに時間がかかっちゃいます。

文書管理では、OCR、ファイル名のルール、保存先のルールを一緒に考えるのが実用的です。

具体的には、こんな運用が便利です。

– ファイル名に日付、取引先名、書類の種類を入れる
– OCR済みファイルと未処理ファイルの保存場所を分ける
– 重要書類はOCR後に検索テストをして、ちゃんと認識されているか確認する

さらに、セキュリティ面も気をつけたいポイントです。

OCRを実行すると、画像として見えていた文字がPDF内のテキスト情報として扱われるようになります。

これで検索やコピーが便利になる反面、個人情報や機密情報が抽出しやすくなる場合もあります。

社外に共有するPDFでは、必要に応じてパスワード保護、墨消し、権限設定などを検討しましょう。

ただ見た目を黒く塗りつぶすだけだと内部のテキストが残っている可能性があるので、Acrobatの正式な墨消し機能を使うことが重要です。

4. AcrobatのOCRを無効化したい場面と設定の考え方

AcrobatのOCRは便利な機能ですが、いつでも有効にしておけばいいってわけでもありません。

たとえばスキャンしたPDFを開いて編集しようとしたときに、勝手にOCRが走り始めて処理に時間がかかることがあります。

ページ数が多い資料や画像がたくさん入っているPDFだと、パソコンの動作が重くなったり、意図しないテキスト変換でレイアウトが変わったように見えたりすることも。

こういう場合は、OCRを必要なときだけ手動で実行する運用に切り替えると使いやすくなります。

Acrobatでは、バージョンや画面構成によって名前が違うこともありますが、「PDFを編集」ツール内のスキャン文書に関する設定や、「環境設定」の「スキャンとOCR」関連の項目から、自動テキスト認識のオン・オフを調整できる場合があります。

一般的には、AcrobatでPDFを開いて「すべてのツール」から「PDFを編集」を選び、右側の設定パネルにあるスキャン文書関連の「テキスト認識」や「OCRを自動実行」みたいな項目を確認します。

自動認識を避けたいときは、そのチェックを外すか、自動処理をしない設定に変更します。

ただし、AcrobatのUIはアップデートで変わることがあるので、手元の画面で項目名が完全に一致しないこともあります。

そんなときは環境設定画面で「スキャン」「OCR」「テキスト認識」「編集」といった項目を探してみてください。

会社でAcrobatを使っている場合は、管理者が設定を制限していることもあるので、変更できないときは社内のIT担当者に相談するといいでしょう。

OCRを無効化するかどうかは、目的に応じて判断するのが現実的です。

検索できるPDFを作りたいならOCRは有効にすべきですが、元の画像の見た目を最優先したい場合や、処理速度を重視したい場合は自動OCRをオフにして、必要なファイルだけ手動でOCRをかけるほうが効率的です。

特に証憑や契約書の保管では、「原本性を保つファイル」と「検索用に加工したファイル」を分けて考えるやり方が役立ちます。

まとめ

スキャンした紙の書類を検索できるようにするには、AcrobatのOCR機能がとても便利です。

でも自動OCRが作業の邪魔になる場面や、意図しない変換を避けたい場面では、無効化したり手動実行に切り替えたりする選択肢もあります。

大事なのは、すべてのPDFに同じ処理をするんじゃなくて、検索性、編集性、原本性、セキュリティのバランスを見ながら使い分けることです。

AcrobatのOCRをちゃんと理解しておけば、紙の書類を単なる画像データじゃなくて、探しやすくて活用しやすい文書資産として管理できるようになりますよ。

広告