• PDFからテキストを読み込む方法
  • pdftoolsパッケージをインストールする
  • Rスクリプトを使ってPDFからテキストを読み込む

PDFからテキストを読み込む方法

例えば、下記のようなPDFのテキストを読み込みたいとします。

※ PDFはダウンロードしてフォルダに保存しておく必要があります。

データソース:https://www.jstage.jst.go.jp/article/cookeryscience1968/23/3/23_302/_pdf/-char/ja

その場合は、”pdftools"というRパッケージを使うことで簡単にPDFからテキストを読み込むことができます。

pdftoolsパッケージをインストールする

プロジェクトのメニューから「Rパッケージの管理」を選択します。

CRANに"pdftools"と入力してインストールボタンを押します。

「pdftoolsのインストールに成功しました」と表示されたら準備が完了です。

Rスクリプトを使ってPDFからテキストを読み込む

データフレームのプラスボタンから「Rスクリプト」を選択します。

Rスクリプトには下記のように入力します。

library(pdftools)
pdf.text <- pdftools::pdf_text("/Users/takato/Downloads/Konbu.pdf")
data.frame(text=pdf.text)

ファイルパスの部分を、保存されているPDFのファイルパスに置き換えてください。

実行することで、PDFからテキストが読み込まれているのが確認できたら保存ボタンをクリックします。

これにより、PDFからテキストを読み込み、データフレームとして保存することができました。

データによっては「テキストデータを加工」する必要があるため、下記のページを参考にお試しください。

テキストデータの加工のノートを見る - リンク

チャートの画像をエクスポート
出力形式
PNG SVG
背景
背景色を透明にする
サイズ
幅 (ピクセル)
高さ (ピクセル)
ピクセル比率