Tag: PDF
CubePDFは、お使いの様々なアプリケーションからいつでも必要な時に、すばやくPDF形式などに変換することができる、とても便利なPDF作成ソフトです。
wkhtmltopdf and wkhtmltoimage are open source (LGPLv3) command line tools to render HTML into PDF and various image formats using the Qt WebKit rendering engine.
Windowsでテキストを抽出するソフトウェアとしてはxdoc2txtなどがありますが、ここでは、Linuxサーバ上でテキストを抽出する方法を紹介します。
popplerというPDFソフトウェアのコマンドラインツールでPDFからテキスト抽出ができるらしいということが分かった
Popplerを使う場合は、既にコマンドラインツールとして pdfinfo (PDFのプロパティ情報等を表示する) や pdfimages (PDFを画像に変換/抽出する) がある。
Pythonモジュールである「PDFMiner.six」を利用して、実際にPDFからテキストを抽出する方法を紹介していきたいと思います。
このソフトを使うと、PDFを「ワード」や「エクセル」「パワーポイント」で編集できるファイル形式にボタン一つで変換できる。 書式やレイアウトもある程度再現できるので、時間を節約できる。