データの再現性と自動化

Exploratoryではデータラングリング(データの加工・整形)の処理をステップとして記録していますが、このステップを使うことで別のデータに対しても同じ処理を再現することができます。

データの再現できるような形で運用していくための下記の3つの方法をご紹介します。

  1. 元のファイルが更新された場合
  2. 同じ形式の別のファイルを使いたい場合
  3. 他の人に共有したい場合

元のファイルが更新された場合

例えば、ローカルにあるExcelのデータを使用しているとします。

同じExcelのシートに最新のデータが追加されている場合は、ファイルは変更する必要はありません。

「再インポートボタン」をクリックすると最新のデータを取り込み直すことができます。

これにより、新しいデータに対して既存のステップが全て再実行されます。

同じ形式の別のファイルを使いたい場合

同じ形式の別のファイルを使いたい場合がありますが、その時は2つの方法があります。

データフレームを複製して、ファイルを変更する

データフレームのメニューから「複製」を選択します。

データフレーム名を設定します。

これによりデータフレームが複製されたため、複製されたデータフレームのデータソースステップのトークンをクリックします。

インポートダイアログの中で、ファイルの変更をクリックします。

使用したいデータを選択して開きます。

ファイルが変更されたため、「更新ボタン」をクリックします。

ステップを残したまま、データソースのファイルだけが変更されました。

ステップをコピーして貼り付ける

新しいデータをインポートして、他のデータフレームのラングリングのステップをコピーして貼り付けたいとします。

ステップをShiftキーを押しながら選択し、「ステップをコピー」のボタンをクリックします。

コピーしたステップは好きなデータフレームに貼り付けることができます。

他のデータフレームを開き、ステップのメニューから「ステップの貼り付け」を実行します。

別のデータフレームでもデータ加工の処理を再現することができました。

他の人に共有したい場合

データとデータ加工のステップを丸ごと他の人に共有したいとします。

データとデータ加工のステップはEDFファイルとしてエクスポートできます。

このEDFファイルを他の人に共有します。

共有された人はデータフレームのプラスボタンから、EDFファイルをインポートします。

これにより、データとデータ加工のステップが再現された形でデータがインポートされます。