Acrobatをつかって抽出する
Acrobat5 は、RTF(リッチテキストフォーマット)での保存が可能です。RTFは、Microsoft Wordやワードパッド等で開くことができるので、容易にテキスト抽出できます。また、Acrobat5がインストールされていれば、Acrobat・AcrobatReaderのいずれでも、テキスト選択ツールが使用できますので、テキストエディタなどにコピー&ペーストするという手も可能です。テキスト選択ツールによる方法は、Acrobat4でも可能です。
- Adobe 「Acrobat で作成した PDF ファイルを元のファイルに戻す事はできますか」
- Adobe 「PDF文書のテキスト、グラフィックの再利用」
- KeiYu HelpLab「PDFのテキスト抽出とHTML変換」:サードパーティ製のプラグインの紹介等があります。
pdf2html.exeを使う
これは、Acrobat5が必要ないのでありがたいDered B. Noonburg氏作のフリーソフトです。コマンドラインツールですが、ファイルを指定するだけなのでとても軽快に作業できます。変換するファイルが多い際などに重宝します。
生成されるテキストは、文字コードがEUCですので、EUCに対応したテキストエディタで開いてください。
ただし、試したところでは、画像からPDFに変換したものは、テキストにできないようです。pdf2image.exeというツールも同梱されていますので、画像として取り出します。その場合は、OCR等で解析してテキスト化することになってしまいます。
- pdftotext.exe(XPdf 0.92)は、PDFファイルバージョン1.3(Acrobat 4)まで対応。
- pdftotext.exe(XPdf 1.01)PDFファイルバージョン1.4/Acrobat 5まで。
- Xpdfに、Win版・Dos版のほかに、Unix版やソースコード等(こちらが本元)があります。
- Available Filtersにはpdf2text.exe(XPdf1.01)ほかがあります。
Acrobat Access を用いた方法
これもAcrobat5は必要ありません。無料ダウンロードできるAcrobat Reader4.x とおなじく無料ダウンロードできるAcrobat Access とを組み合わせることによって、テキスト化します。いずれもAdobe純正ツールです。ただし、日本語は文字化けを起こすことがありますので、その場合にはInterFont等のフォント変更ツールを用いて修正します。
Acrobat Reader は、バージョンが4.xだという点に注意してください。v.5をインストールした状態で試しましたが、Acrobat Accessをインストールできませんでした。
抽出結果には半角スペースが入りますので、テキストエディタの置換機能等で削除してください。
WinNT4.0, AcrobatReader4とAcrobatAccessで動作を確認しました。今回のテスト環境では文字化けを起こしませんでしたので、InterFontは使用していません。(2003.3.10)
- Acrobat Accessは、 Adobeからダウンロードできます。
- Acrobat Reader4.xは、 Adobe Downloadや、 Adobe Acrobat Reader ダウンロードページからダウンロードできます。
- InterFontは、 Ryuuji's Homepageよりダウンロードできます。
- この方法は、KeiYu HelpLabの「PDFとアクセシビリティ」より知りました。詳しくはぜひこちらを参照してください。
access.adobe.com による方法
- Web上にあるPDFをフォームで指定してHTMLへ変換
- メールの応答システムを利用したHTML・テキストへの変換
access.adobe.comは、通常のPDF文書を読むことが困難な人のためのサービスです。単なるPDFのHTML/テキスト変換ツールとして利用しないでください。障害がない人からの送信がaccess.adobe.comに殺到すると、本当にサービスを必要とする人に多大な迷惑をかけることになります。と書いていらっしゃいますが、同感です。使用方法の詳細も
KeiYu HelpLabの「PDFとアクセシビリティ」
にありますので、一読をおすすめします。現在のところ日本語には対応していないようです。





