論文をDLしていると、変なフォントが埋め込まれていて検索も、OCRもそのままではできない使い勝手の悪いPDFを見つけた。これをうまく検索できるように文字認識をやり直す。
手順は2段階
1. PDFを画像にエクスポート
2. エクスポートした画像を単一PDFに結合
3. OCRをかける
Adove Acrobat Proを前提
1. ファイル -> 名前をつけて保存 -> 画像 -> JPEGなど
2. ファイル -> 作成 -> ファイルを単一のPDFに結合
3. 表示 -> ツール -> テキスト認識 -> このファイル内
http://helpx.adobe.com/jp/acrobat/kb/3552.html
以上で完了
関連