このNoteは、株式会社ネオキャリアの分析啓蒙活動の一環として行った EDA Salon のレポートをパブリッシュしたものになります。
こんにちは、株式会社ネオキャリアの松村です。
EDA Salon 第7回 のデータを使った探索的データ分析をやってみます。本記事ではこのデータのことを提供データと呼ぶことにします。
今年2020年は東京での開催ということもあり、いつも以上に日本人のメダル獲得が期待されていますが、本当に自国での開催はメダル獲得と関係があるのでしょうか?これを可視化を中心にして検証してみたいと思います。
まず、オリンピックが開かれたことがある地域について見てみます。これは、もし「自国開催だとメダルが取りやすい」という仮設が成り立つ場合、開催地域に偏りがあるとそれだけでその国や地域が有利になってしまい、競技の公平性が保証されないからです。
今回は、simple mapas のデータを利用して、開催都市の緯度経度を取得します。ここから取得したデータを、以下では「都市データ」と呼ぶことにします。
ただし、以下の都市については提供データと都市データでスペリングが違う、そもそも都市データにない、などの理由から、緯度経度データに手動でデータを追加して処理をしました。
city | lat | lng |
---|---|---|
Antwerpen | 51.2601 | 4.4027 |
Athina | 37.9838 | 23.7275 |
Chamonix | 45.8321 | 6.8655 |
Cortina d’Ampezzo | 45.5369 | 12.149 |
Moskva | 55.7512 | 37.6184 |
Garmisch-Partenkirchen | 47.492 | 11.0957 |
Sankt Moritz | 46.5083 | 9.8833 |
Squaw Valley | 39.1969 | -120.2357 |
Torino | 45.1161 | 7.7426 |
Antwerpenはアントワープ、Athinaはアテネ、Moaskvaはモスクワのことでああり、他の都市は冬季オリンピックの開催都市と提供データから判断できます。
City | Year | Season |
---|---|---|
Athina | 1896 | Summer |
Athina | 1906 | Summer |
Antwerpen | 1920 | Summer |
Chamonix | 1924 | Winter |
Sankt Moritz | 1928 | Winter |
Garmisch-Partenkirchen | 1936 | Winter |
Sankt Moritz | 1948 | Winter |
Cortina d’Ampezzo | 1956 | Winter |
Squaw Valley | 1960 | Winter |
Moskva | 1980 | Summer |
Athina | 2004 | Summer |
Torino | 2006 | Winter |
まずは夏冬の区別なく、どのような地域でオリンピックが開催されてきたかを見てみます。国に色を塗って濃さで表すよりも、地図上のヒートマップとして可視化することで、アジア、ヨーロッパなど、「地域」に対しての理解がしやすくなります。
知識として持っている方もいるかもしれませんが、アフリカ地域での開催はこれまで一度もありません。
次に、夏と冬をそれぞれ区別して同様のヒートマップを見てみましょう。
夏
冬
夏は大都市に集中しているのに比べて、冬はスキーなど自然環境に左右されることから、
本題です。
まず、提供データに対して「自国開催かどうか」というダミー変数を作らなければいけませんが、これは提供データの「NOC」列(選手の所属)と、都市データの「iso3」列に、国の略称が記録されているため、開催都市と開催国を紐付けた時点のデータを利用すれば可能です。下記はデータ処理後の外観を見るために10件サンプリングしたものになります。
ID | Name | Team | NOC | Year | Season | City | Sport | Event | Medal_dummy | country | iso3 | my_country |
---|---|---|---|---|---|---|---|---|---|---|---|---|
75530 | Arthur Martin | Canada | CAN | 1908 | Summer | London | Shooting | Shooting Men’s Free Rifle, 1,000 Yards | 0 | Canada | CAN | 1 |
113511 | Dmitry Vladimirovich Sovolyov | Russia | RUS | 2014 | Winter | Sochi | Figure Skating | Figure Skating Mixed Team | 1 | Russia | RUS | 1 |
87706 | Atsushi Obayashi | Japan | JPN | 1964 | Summer | Tokyo | Swimming | Swimming Men’s 200 metres Butterfly | 0 | Japan | JPN | 1 |
60227 | Kim Seong-Ho | South Korea | KOR | 1988 | Summer | Seoul | Modern Pentathlon | Modern Pentathlon Men’s Team | 0 | Korea, South | KOR | 1 |
98353 | John B. Rahm | United States Golf Association-3 | USA | 1904 | Summer | St. Louis | Golf | Golf Men’s Team | 1 | United States | USA | 1 |
30158 | Taylor Drysdale | United States | USA | 1936 | Summer | Berlin | Swimming | Swimming Men’s 100 metres Backstroke | 0 | United States | USA | 1 |
119656 | Alvar Thiel | Sans Atout-1 | SWE | 1912 | Summer | Stockholm | Sailing | Sailing Mixed 8 metres | 1 | Sweden | SWE | 1 |
95318 | Marcella Jeanette “Marcy” Place-von Schottenstein | United States | USA | 1984 | Summer | Los Angeles | Hockey | Hockey Women’s Hockey | 1 | United States | USA | 1 |
34578 | Richard “Rich” Fellers | United States | USA | 2012 | Summer | London | Equestrianism | Equestrianism Mixed Jumping, Individual | 0 | United States | USA | 1 |
128691 | Debra Lynn Waples | United States | USA | 1984 | Summer | Los Angeles | Fencing | Fencing Women’s Foil, Individual | 0 | United States | USA | 1 |
このデータをもとに、「メダルダミーの平均値(つまりメダル獲得数/出場選手競技数)」を可視化してみます。
まずは夏。
アメリカ強い。ただメダル獲得率で言えば強いところは自国開催がなくても強いということが分かります。結局スポーツに力を入れてるかどうか(経済力と相関しそう)が重要なのかも….?
続いて、冬。
そもそも出場している国の数などが夏と全然違います。また、夏と比べると自国開催でのメダル獲得率は高いようにも見えます。