とあるサイトを PDF に保存した。今思えば先のことを考えていなかった。 データを活用しようと思ったが、PDF のままでは無理と気づく。 そこで Python を使って文字を取り出すことにした。 ネットで調べると pypdf というライブラリーに関する記述が多かった ...
以前、Pythonで、PDFファイルをページごとに画像ファイルに変換する処理についてまとめました。 この際、使用しているライブラリは、pdf2imageでした。 pdf2imageライブラリは、内部でpopplerというライブラリを使用するため、事前にパソコンにpopplerを ...