OCR PDF オンライン — 無料、スキャンしたPDFを検索可能に、登録不要
光学式文字認識 (OCR) を使用して、スキャンされたPDFに検索可能なテキストレイヤーを追加します。任意の画像ベース文書からテキストを選択してコピーします。無料、Tesseractを採用。
› OCR PDF
✅ ファイルのダウンロード準備ができました!
PDFでOCRを実行する方法 —
スキャンした PDF は単なる画像であり、テキストを検索、選択、コピーすることはできません。 PdfDocShift は、最も広く使用されているオープンソース OCR エンジンである Tesseract OCR を使用して各ページを分析し、非表示で検索可能なテキスト レイヤーを追加します。その結果、オリジナルとまったく同じように見える、完全に検索可能な PDF が作成されます。
その他のPDFツール、
必要なすべてのPDF操作 — ワンクリックで。
3 ステップ、
サインアップ不要。ファイルは転送中に暗号化され、2時間後に自動削除されます。
OCRとは何か、なぜ必要なのか?
OCRは光学式文字認識の略です。物理的な文書をスキャンすると、結果は基本的に写真のPDFです — テキストは画像であり、実際の選択可能な文字ではありません。検索したり、テキストをコピーしたり、スクリーンリーダーで使用したりすることはできません。OCRは画像をピクセル単位で分析し、文字、単語、段落を識別してから、表示される画像の背後にテキストレイヤーを埋め込みます。結果は元のスキャンと同じに見えますが、完全に検索可能でコピーペースト可能、アクセシブルです。これは、スキャンされた契約書、アーカイブされた記録、スキャンされた書籍、歴史的文書、プログラムで作業する必要があるデジタル化された書類に不可欠です。
OCRの精度に影響を与えるものは何ですか?
3つの要因がOCR精度を支配します。第一に、scan resolution:300 DPIは優れた結果を生み出します。150 DPIは通常かろうじて許容範囲です。それ以下では文字が失われます。第二に、contrast:黒白のコントラストが最もよく機能します。黄ばんだページやかすんだページは精度を下げます。第三に、font clarity:Times Romanのような標準的なセリフフォントはほぼ完璧に認識されます。手書きや筆記体のフォントは人間にも読めない場合があります。
OCR後 — 検索と編集
OCRが完了すると、出力PDFは任意のPDFビューアで完全に検索可能になります — Ctrl+F(MacではCmd+F)を使用して任意の単語またはフレーズを検索します。認識されたテキストは選択してコピーすることもできます。完全に編集可能な形式でテキストが必要な場合は、その直後にPDF to Wordツールを使用してOCR済みPDFをWordに変換してください。OCRは100%完璧ではないことに留意してください — 固有名詞、専門用語、特殊な書式は、文書がプロフェッショナルな文脈で使用される前に手動の修正が必要になる場合があります。
OCR PDF
OCR PDFをオンラインで無料で使用するために知っておくべきすべて。
OCR (光学文字認識) は画像からテキストを読み取り、検索可能なテキスト レイヤーを PDF に追加します。スキャンされた PDF は単なる画像です。OCR 後、テキストを検索、コピー、編集できます。
PdfDocShift の OCR ツールは、英語、ドイツ語、フランス語、スペイン語をサポートしています。 OCR エンジン (Tesseract) は言語に関係なくテキストを自動的に検出しますが、精度はサポートされている言語で最高です。
OCR 時間は、ページ数とスキャン品質によって異なります。一般的な 10 ページのドキュメントのスキャンは 15 ~ 30 秒で完了します。非常に大きなドキュメント (100 ページ以上) の場合は、最大 2 分かかる場合があります。
いいえ、OCR は既存のページ画像の下に非表示のテキスト レイヤーを追加します。各ページの外観はまったく同じままで、検索機能とテキストの選択のみが追加されます。