同じディレクトリの下にある複数のPDFファイルからテキストを読み込む

以下のように、同じディレクトリの下に、複数のpdfファイルがあって、これらのファイルから一度にテキストを取り込みたいとします。

まず、準備としてこちらのドキュメントInstall from CRANのセクションを参考に、pdftoolsパッケージをインストールします。

pdftoolsパッケージがインストールされていると、以下のようなRスクリプトで、テキストの取り込みができます。 “~/pdf_read_test”の部分は、pdfがあるディレクトリのパスで置き換えてください。

library(tibble)
library(pdftools)
files = list.files(path = "~/pdf_read_test", pattern = "*.pdf", full.names = T)
files_df <- as_data_frame(files) %>% rownames_to_column() %>% rename(id = rowname)
text_df <- files_df %>% mutate(text=lapply(value, pdf_text)) %>% unnest(text) %>% rename(filename=value)
text_df

このRスクリプトからデータソースをつくるため、プラスボタンメニューから、Rスクリプト を選択します。

スクリプト・エディターに、先ほどのスクリプトを入力します。

実行をクリックすると、テキストデータが取り込まれているのがわかります。

保存ボタンを押して、データフレームを作成ダイアログの中でデータフレームに名前を付けて、作成ボタンをクリックします。

テーブルビューで見ると、テキストデータがディレクトリの下の全てのPDFファイルから取り込まれているのがわかります。