このノートでは、重複する行を残す方法を紹介いたします。
例えば、1行が1人の従業員のアンケートの回答を表す以下のように従業員のアンケートデータがあったとします。
このとき、1行目と2行目に注目すると、重複した回答がデータがあることがわかります。
このようなデータから、重複する行を理解・確認するためには、ステップメニューの「これだけを残すか/削除する...」から「重複する行」を選択します。
すると、重複する行を残すためのダイアログが表示されます。
評価の対象となる列では、「全ての列」にチェックを付けて、全ての列の値が一致する重複行のみを残すか、あるいは「指定した列」にチェックをつけて、指定した列の値のみが一致する重複行を残すか指定することができます。
今回は、全ての列の値が一致する重複行のみを残したいので、「全ての列」にチェックを付けて実行します。
すると、以下のように、全ての列の値が一致する重複行が残されます。
なお、指定した列を選択したときには、「選択...」のプルダウンメニューから重複行を残すときに参照する列を指定するプルダウンメニューが表示されます。
仮に、何らかの理由で従業員IDに誤った情報が入っている可能性を考慮して、それ以外の列の値が全て一致する重複行を残したいときには、「従業員ID」以外の列にチェックを付けるわけです。
列の指定以外には、「他の列を残す」というオプションがサポートされています。
この状態で実行すると、以下のような結果が返ります。
例えば、1行と2行目に注目すると、全ての値が同じであることが確認できます。
同じように、3行目と4行目に注目すると、全ての値が同じであることが確認できます。
このとき、データフレームの最後の方にマウスをスクロールすると、「depe_count」という列があることがわかります。
これは、該当行と重複する値を持つ行が何行あるかを表しています。
なお、「指定した列」に指定しなかった列があったときには、対象の列はデータの最後に追加されることになります。