Adobe AcrobatのClearScan実行時の「Pager Capture 認識サービスのエラーにより、ページを処理できません。(6)」の解決方法
有料版のAdobe Acrobat(StandardやPro)にはOCR(Optical Character Recognition:光学文字認識)機能がある。その中でClearScanというOCRがある。ClearScanではPDFの画像の文字を解析して,その文字とよく似たフォントで画像を置換してくれる。ClearScanでフォントを埋め込むことで,以下2点の利点がある。
- PDFのファイルサイズを1/3程度に縮小できる。
- 拡大しても文字がギザギザにならずとても読みやすい。
ClearScanに相当する機能は他社は提供しておらず,Adobe Acrobat独自の機能となっている。縦書き文字に対する認識はいまいちだが,上記2点の利点があるので,横書きPDFに対してはClearScanでOCRをかけることにしている。
ところが,[ClearScan]やその他のOCR方法である,[検索可能な画像]と[検索可能な画像(非圧縮)]を選択してもエラーが発生してOCRを実行できないページが存在する。エラーが発生するページが1ページでもあれば,そのPDF全体はOCRを適用できなくてとても困る。この解決方法が分かったのでそれを記す。
Adobe AcrobatはScanSnap ix500に付属してきたAdobe Acrobat X Standardで動作を確認した。
エラーの発生したページとエラーメッセージ
エラーは例えば以下のようなページに対してスキャンが実行されると発生する。
エラーメッセージの内容はそれぞれ以下の通り。
上記のサンプルページでは,おそらくページ下部の罫線がOCRの妨げになっていると思われる。その他にも,ローマ数字や丸付き数字,しわなどスキャン時にぐちゃぐちゃになった部分が存在すると上記のエラーが発生するようだ。
他にもネットで同様のエラーが報告されている。
解決方法
このエラーの解決方法を考えたところ,以下の順位で3通りあるだろうと考えた。
以下でそれぞれの内容を説明する。
エラーページ内の問題になりそうな箇所をトリミングで削除
この方法が一番簡単でお勧めだ。エラーの発生したページにおいて,OCRの妨げになるような箇所をトリミングで削除してしまう。例えば,以下の画像のようにスキャンがきれいにできず,左上の赤丸で囲んだごちゃごちゃしてそうなところをトリミングで削除する。
トリミングは以下の手順で行える。
[表示]→[ツール]→[ページ]→[トリミング]
ページをダブルクリックするとダイアログが表示され,ページ範囲指定して一括でトリミングすることもできる。不要な余白の削除にも便利な機能だ。
なお,トリミングではあくまで表示範囲を再設定しただけで,内部的にはデータを保持している。データ自体も削除するには以下の手順で非表示情報を削除する。なお,この操作を行うとメタデータ類が全て削除されるので注意する。
[表示]→[保護]→[非表示情報を検索して削除]
その他,試してはいないが,Adobe Acrobat Proの隅消し機能や,他の画像編集ソフトでOCRの妨げになる部分を隠すことでも対応できるかもしれない。
エラーページだけ分離して,別のソフトでOCR後マージ
この方法は僕が最初に試した方法だ。やや手間だがこの方法も悪くない。この方法は以下の手順でエラーに対処する。
- エラーの発生したページを切り取って別のPDFに分離。
- 本体のPDFにClearScanを実行。
- 分離したPDFはAdobe Acrobat以外の別のOCRソフトでOCRを実行。
- 最後に本体と分離したページをマージ。
なお,自分の備忘録に近いメモを残しておく。
書籍をスキャンしたPDFはサイズが数十から数百MBと大きく,表示速度やHDの圧迫が気になるので,「 Smallpdf.com」というサイトでPDFを圧縮している。
このサイトで圧縮するとだいたい1/3までファイルサイズを縮小できる。ClearScan単体でも1/3程度圧縮できるので,ClearScanを行ってからSmallpdfで圧縮すると,だいたい元のPDFの1/10程度にまでファイルサイズを圧縮でき重宝している。なお,Smallpdf→ClearScanの順番で行うと,ファイルサイズは同じくらいだが,ClearScanでのフォント埋め込みが汚くなるのでClearScan→Smallpdfの順番でやったほうがいい。
この手順でPDFをマージしてしまうと,なぜかSmallpdfで圧縮できなくなることがあった。なので,マージはSmallpdfで圧縮してから行ったほうがいい。
Adobe AcrobatのOCRをやめ,他社製品のOCRを利用
これは本当に最期の手段と思う。エラーの発生ページが多すぎて,いちいち個別のページの対処ができない場合だけこの方法を採用するだろう。
OCRソフトについては以下の記事がとても参考になる。
現状日本語OCRの選択肢としては以下の3択と考えてよい。
- e.Typist
- 読み取り革命
- Adobe Acrobat
この中では,ファイルの圧縮率が高いのでe.Typistがよいと思う。もともと最初に読み取り革命を最初に購入したのだが,OCR後にOCR前のPDFの3倍程度にまでファイルサイズが肥大化してしまったので,e.Typistを買い直した。
Adobe Acrobatが苦手な縦書きの文庫本などもe.Typistで処理することになるだろう。
まとめ
Adobe AcrobatによるOCR実行時のエラーについてまとめた。あまりこういうトラブルに対してまとまった情報は見当たらなかったので参考になればよいと思う。