以下のように、同じディレクトリの下に、複数のpdfファイルがあって、これらのファイルから一度にテキストを取り込みたいとします。
まず、準備としてこちらのドキュメントのInstall from CRANのセクションを参考に、pdftoolsパッケージをインストールします。
pdftoolsパッケージがインストールされていると、以下のようなRスクリプトで、テキストの取り込みができます。 “~/pdf_read_test”の部分は、pdfがあるディレクトリのパスで置き換えてください。
library(tibble)
library(pdftools)
files = list.files(path = "~/pdf_read_test", pattern = "*.pdf", full.names = T)
files_df <- as_data_frame(files) %>% rownames_to_column() %>% rename(id = rowname)
text_df <- files_df %>% mutate(text=lapply(value, pdf_text)) %>% unnest(text) %>% rename(filename=value)
text_df
このRスクリプトからデータソースをつくるため、プラスボタンメニューから、Rスクリプト を選択します。
スクリプト・エディターに、先ほどのスクリプトを入力します。
実行をクリックすると、テキストデータが取り込まれているのがわかります。
保存ボタンを押して、データフレームを作成ダイアログの中でデータフレームに名前を付けて、作成ボタンをクリックします。
テーブルビューで見ると、テキストデータがディレクトリの下の全てのPDFファイルから取り込まれているのがわかります。