共通の列(キー列)があれば、2つのデータを結合することが可能です。例えば、顧客IDのように2つのデータに共通するキーがあれば、例えばバラバラになている売上のデータに顧客の居住地域のデータの情報を追加するといったことができます。
ExcelなどでVlookup関数を利用している方や、2つデータを列で結合したい方にお役立ていただけます。
2つのデータがあったときに、共通するキー列をもとに列結合して1つのデータにまとめたい。
Exploratoryの結合機能を使用して、共通のキー列(例:顧客ID)をもとに2つのデータを結合します。
列結合とは、2つのデータを共通の列を使って1つのテーブルにまとめる機能です。例えば以下のような国ごとの売上のデータと、拠点の所在地情報のデータがあったとします。
このような場合、「国」という共通の列(キー列)を使って、売上データに拠点の所在地情報を結合することで、国、売上、所在地 が1つのテーブルにまとまります。
今回は、1行が1人の顧客を表す売上データと、顧客の居住エリアデータを使用して、実際に2つのデータを結合します。
売上
顧客の居住エリア
両者のキー列は「顧客ID」となるため、列を結合したいデータフレーム(今回は売上データ)を開いて、顧客IDの列ヘッダーメニューから「結合」を選択します。
結合のダイアログが開いたら、結合先のデータフレームとして「顧客の居住エリア」を選択します。
このとき、結合先のデータフレームに、結合元のキー列と同じ名称のキー列があれば、自動で、結合先データフレームのキー列が選択されます。(同じ名称のキー列がない場合、手動でキー列を選択する必要があります)
結合する列を選択したいときには、「結合する列を選択」メニューをクリックします。
すると列選択のダイアログが表示されるので、必要な列(今回は国とマーケット)のみを選択し、OKボタンをクリックします。
プレビューボタンをクリックすると、結合元のデータの上部は青くハイライトされ、結合先のデータの上部はオレンジ色でハイライトされ、結合される列の内容を確認できます。
また、プレビュー画面からは、結合される列の欠損値の有無や、結合後の行数を確認でき、結合にあたっての問題がないかを確認できます。
結合の設定が完了したら、実行ボタンをクリックします。
結合のステップが追加され、顧客ごとの売上のデータに国とマーケットの情報を追加できました。