Acrobatをつかって抽出する


Acrobat5 は、RTF(リッチテキストフォーマット)での保存が可能です。RTFは、Microsoft Wordやワードパッド等で開くことができるので、容易にテキスト抽出できます。また、Acrobat5がインストールされていれば、Acrobat・AcrobatReaderのいずれでも、テキスト選択ツールが使用できますので、テキストエディタなどにコピー&ペーストするという手も可能です。テキスト選択ツールによる方法は、Acrobat4でも可能です。

pdf2html.exeを使う


これは、Acrobat5が必要ないのでありがたいDered B. Noonburg氏作のフリーソフトです。コマンドラインツールですが、ファイルを指定するだけなのでとても軽快に作業できます。変換するファイルが多い際などに重宝します。
生成されるテキストは、文字コードがEUCですので、EUCに対応したテキストエディタで開いてください。
ただし、試したところでは、画像からPDFに変換したものは、テキストにできないようです。pdf2image.exeというツールも同梱されていますので、画像として取り出します。その場合は、OCR等で解析してテキスト化することになってしまいます。

  • pdftotext.exe(XPdf 0.92)は、PDFファイルバージョン1.3(Acrobat 4)まで対応。

  • pdftotext.exe(XPdf 1.01)PDFファイルバージョン1.4/Acrobat 5まで。

  • Xpdfに、Win版・Dos版のほかに、Unix版やソースコード等(こちらが本元)があります。

  • Available Filtersにはpdf2text.exe(XPdf1.01)ほかがあります。

Acrobat Access を用いた方法


これもAcrobat5は必要ありません。無料ダウンロードできるAcrobat Reader4.x とおなじく無料ダウンロードできるAcrobat Access とを組み合わせることによって、テキスト化します。いずれもAdobe純正ツールです。ただし、日本語は文字化けを起こすことがありますので、その場合にはInterFont等のフォント変更ツールを用いて修正します。
Acrobat Reader は、バージョンが4.xだという点に注意してください。v.5をインストールした状態で試しましたが、Acrobat Accessをインストールできませんでした。
抽出結果には半角スペースが入りますので、テキストエディタの置換機能等で削除してください。

WinNT4.0, AcrobatReader4とAcrobatAccessで動作を確認しました。今回のテスト環境では文字化けを起こしませんでしたので、InterFontは使用していません。(2003.3.10)

access.adobe.com による方法


access.adobe.comには、

  • Web上にあるPDFをフォームで指定してHTMLへ変換
  • メールの応答システムを利用したHTML・テキストへの変換
の2種類のサービスが提供されていますが、これについて、KeiYu HelpLabは、

access.adobe.comは、通常のPDF文書を読むことが困難な人のためのサービスです。単なるPDFのHTML/テキスト変換ツールとして利用しないでください。障害がない人からの送信がaccess.adobe.comに殺到すると、本当にサービスを必要とする人に多大な迷惑をかけることになります。
と書いていらっしゃいますが、同感です。使用方法の詳細も
KeiYu HelpLabの「PDFとアクセシビリティ」
にありますので、一読をおすすめします。現在のところ日本語には対応していないようです。
이전 1 ... 4 5 6 7 8 9 10 11 12 ... 131 다음