例えば、下記のようなPDFのテキストを読み込みたいとします。
※ PDFはダウンロードしてフォルダに保存しておく必要があります。
データソース:https://www.jstage.jst.go.jp/article/cookeryscience1968/23/3/23_302/_pdf/-char/ja
その場合は、”pdftools"というRパッケージを使うことで簡単にPDFからテキストを読み込むことができます。
プロジェクトのメニューから「Rパッケージの管理」を選択します。
CRANに"pdftools"と入力してインストールボタンを押します。
「pdftoolsのインストールに成功しました」と表示されたら準備が完了です。
データフレームのプラスボタンから「Rスクリプト」を選択します。
Rスクリプトには下記のように入力します。
library(pdftools)
pdf.text <- pdftools::pdf_text("/Users/takato/Downloads/Konbu.pdf")
data.frame(text=pdf.text)
ファイルパスの部分を、保存されているPDFのファイルパスに置き換えてください。
実行することで、PDFからテキストが読み込まれているのが確認できたら保存ボタンをクリックします。
これにより、PDFからテキストを読み込み、データフレームとして保存することができました。
データによっては「テキストデータを加工」する必要があるため、下記のページを参考にお試しください。
テキストデータの加工のノートを見る - リンク