Kindleの固定レイアウト書籍をPDF化してOCR処理
kindleの本で買った本で、固定レイアウトの本があるが、マジで使いにくい。小説ならまだしも、参考書で検索が使えないって、利用価値が半減
※この商品は固定レイアウトで作成されており、タブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字列のハイライトや検索、辞書の参照、引用などの機能が使用できません。
わざわざ電子書籍で出すのに、なんで出版社の方で検索できるフォーマットで出してくれないんだろう・・・不便すぎる。
ググってみると、"Kindleの本をPDFとしてエクスポートしてOCR処理を加える"やり方があったのでやってみた。環境はVirtualBox上のWindows10で試した。
Kindle本をPDF出力
このサイトを参考に
キンドルでダウンロードした本をPDF化する | C#とMultiRowのプログラミング
以下のツールをダウンロード。CubePDFというのは使わなかった。
https://github.com/apprenticeharper/DeDRM_tools/releases
それぞれ最新版をダウンロード。Calibreをインストールして、DeDRM_toolsプラグインを追加。
Kindleの本を読み込んで、いざ開いてみようとすると・・・DRMがかかっていて書籍が開けないと。
Windowsは特に設定はいらないって書いてたが、キーの設定を見たら何も設定されてなかったので、キーを追加したら何とか読み込めた。
書籍を開き、印刷で保存先をPDFにして出力した。
OCR処理
手順的には、これの
スキャナ取込みの際に文字をテキストとして認識させる方法 (Acrobat XI/DC)
"B-2. 取り込んだ後に OCR を適用" の手順。
Acrobat DCで先ほどのPDFを開いた後、
ツール→スキャン補正から、OCR処理を行った。
ページ数が多いとけっこう時間がかかる(何時間とか)。
補正の後、名前をつけてファイルを保存する。元のファイルの2倍近くにサイズが膨らんだ。
これで書籍内の検索できて仕事が捗るはず。
追記 KFX形式の書籍
何冊か試した後、KFX形式?(.azwと.mdとかいうのに分かれてた?)で読めない形式の書籍があった。以下のWebページを参考に、昨年ダウンロードした古いKindle(1.2.3)を使って、renderer-test.exeを名前変更して使えなくするという方法で対処はできた(KFXでダウンロードしないようになるみたい)・・・
Dealing with Kindle for PC/Mac 1.19 and KFX in calibre - MobileRead Forums