Exploratoryには、複数のデータファイルやExcelシートを1つのデータフレームに統合する機能があります。例えば、年度ごとや部署ごとに別々に保存されているデータを分析や集計のためにまとめるときに便利な機能です。データの統合方法には、データインポート時に統合する方法と、インポート後に統合する方法の2つのアプローチがあります。
同じようなフォーマットのExcelファイルを別々のシートやファイルで保存していて、それらをまとめたい方にお役立ていただけます。
データ分析や集計を行う際、同じフォーマットのデータが複数のファイルやシートに分かれているため、それらをまとめることはよくやることの一つです。
一方で、例えば、年度ごとに別々のファイルで管理されているような場合、これらを手動でコピー&ペーストして統合するのは非効率的で、ミスが発生するリスクもあります。
Exploratoryでは、データをインポートする際に統合する方法と、すでにインポートされているデータを後から統合する方法の2つのアプローチを提供しています。
同じフォーマットのデータであれば、簡単に1つのデータフレームにまとめることができます。また、データをまとめるときにはいくつかのアプローチがあり、それぞれを説明します。
今回は、2017年から2020年までの同じフォーマットの売上データが毎年別々のファイルやシートに保存されていることを前提に話を進めていきます。
まずは既に複数年分のデータのインポートを終えている場合のまとめ方を紹介します。
データを統合する対象のデータフレームに移動し、ステップメニューから「マージ/ 行の追加」を選択します。
マージのダイアログが開いたら統合したいデータフレームを指定します。
このとき、検索ボックスを利用することで、マージしたいデータフレームを簡単に選択できます。
「データフレーム名を保持する」オプションは、データをマージするときの元のデータフレーム名を列に追加するかどうかを選択するオプションとなります。(今回はデータフレーム名の情報は不要なため、チェックを外し実行ボタンをクリックします。
これで4年分のデータを1つのデータフレームにまとめられました。
先程の例は、データのインポートを既に終えていることが前提の話ですが、それぞれのデータをインポートするときににマージすることも可能です。
データフレームの横にある+ボタンをクリックして、マージをするファイルを個別に選択することも可能ですが、今回はマージしたいCSVファイルを選択してExploratoryにドラッグ&ドロップします。
すると、インポートダイアログが表示されるので「インポート&マージ」を選択します。
id(データフレーム名)の保持が不要な場合は、idをアンチェクして、インポートボタンをクリックします。
するとデータフレーム名を指定するダイアログが表示されるので、データフレーム名を入力して「作成」をクリックします。
これでデータをインポートする段階で、4年分のデータを1つのデータフレームにまとめられます。
先程までの例ではファイルが複数に分かれている前提でしたが、データが複数のシートに分かれていることもあり、そのような複数シートのデータをマージすることも可能です。
そのようなときには、複数のシートを持つExcelファイルをドラッグ&ドロップします。
するとインポートダイアログが開くので、「複数選択」にチェックを入れ、マージしたいシートを選択します。
「インポート&マージ」を選択します。
これでデータをインポートする段階で、4年分のシートの情報を1つのデータフレームにまとめられました。