Exploratory アワー #429 - 上位30、下位30のデータを除きたい

アンケートデータの総合得点や購買データの購買金額などで、多くの人はどれくらいの値に集まっているのかを知りたいことがあります。

例えば上位30、下位30以外の人たちのみを残したいとした時に、表計算のランキングを使ってフィルタをする方法、または値の降順でソートをしてから行を選択の機能を使って取り除く方法の2つをご紹介します。

問題

顧客の購買金額データセットがあり、極端に高い金額や低い金額（外れ値）が分析結果に影響を与える可能性があります。これらの外れ値を除外し、より一般的な顧客のデータに焦点を当てたいです。

購買金額の列ヘッダーメニューから「表計算を作成」の「ランキング（隙間なし）」の「降順」を選びます。

列名を「購買金額_ランク」に変更します。

ランクをつけた後の結果をわかりやすく表示させたい場合は、計算前にデータを並び替えるにチェックをつけ、並び替える列には「購買金額」の「降順」を選択します。（ランクの計算には影響しません）

実行することで、購買金額をもとにランクをつけることができました。

「購買金額_ランク」列のヘッダーメニューから「フィルタ」の「範囲内」を選択します。

値の範囲を31から70に設定して実行します。

購買金額に基づいたランキングを使用してフィルタを行い、上位30件と下位30件が除外されていることがわかります。

購買金額の列ヘッダーメニューから「並び替え」の「降順」を選択します。

並び替えのダイアログが表示されるので実行ボタンをクリックします。

次に、ステップメニューから「これだけを残す/削除する」の「行を選択」を選びます。

初めの行を31、終わりの行を70に設定して実行します。

この方法では、データを購買金額で並び替え、その後、行番号を基に特定の範囲（31行目から70行目）のデータのみを残すようにしています。

どちらの方法も、結果として上位30件と下位30件のデータを除外し、中間の40件のデータを残すことができます。