前書き

このNoteは、株式会社ネオキャリアの分析啓蒙活動の一環として行った EDA Salon のレポートをパブリッシュしたものになります。

はじめに

こんにちは、株式会社ネオキャリアの松村です。

EDA Salon 第7回 のデータを使った探索的データ分析をやってみます。本記事ではこのデータのことを提供データと呼ぶことにします。

今年2020年は東京での開催ということもあり、いつも以上に日本人のメダル獲得が期待されていますが、本当に自国での開催はメダル獲得と関係があるのでしょうか?これを可視化を中心にして検証してみたいと思います。

オリンピック開催地域に関する探索

まず、オリンピックが開かれたことがある地域について見てみます。これは、もし「自国開催だとメダルが取りやすい」という仮設が成り立つ場合、開催地域に偏りがあるとそれだけでその国や地域が有利になってしまい、競技の公平性が保証されないからです。

開催都市の緯度・経度の取得

今回は、simple mapas のデータを利用して、開催都市の緯度経度を取得します。ここから取得したデータを、以下では「都市データ」と呼ぶことにします。

ただし、以下の都市については提供データと都市データでスペリングが違う、そもそも都市データにない、などの理由から、緯度経度データに手動でデータを追加して処理をしました。

city lat lng
Antwerpen 51.2601 4.4027
Athina 37.9838 23.7275
Chamonix 45.8321 6.8655
Cortina d’Ampezzo 45.5369 12.149
Moskva 55.7512 37.6184
Garmisch-Partenkirchen 47.492 11.0957
Sankt Moritz 46.5083 9.8833
Squaw Valley 39.1969 -120.2357
Torino 45.1161 7.7426

Antwerpenはアントワープ、Athinaはアテネ、Moaskvaはモスクワのことでああり、他の都市は冬季オリンピックの開催都市と提供データから判断できます。

City Year Season
Athina 1896 Summer
Athina 1906 Summer
Antwerpen 1920 Summer
Chamonix 1924 Winter
Sankt Moritz 1928 Winter
Garmisch-Partenkirchen 1936 Winter
Sankt Moritz 1948 Winter
Cortina d’Ampezzo 1956 Winter
Squaw Valley 1960 Winter
Moskva 1980 Summer
Athina 2004 Summer
Torino 2006 Winter

可視化

まずは夏冬の区別なく、どのような地域でオリンピックが開催されてきたかを見てみます。国に色を塗って濃さで表すよりも、地図上のヒートマップとして可視化することで、アジア、ヨーロッパなど、「地域」に対しての理解がしやすくなります。

Loading...

知識として持っている方もいるかもしれませんが、アフリカ地域での開催はこれまで一度もありません。

次に、夏と冬をそれぞれ区別して同様のヒートマップを見てみましょう。

Loading...

Loading...

夏は大都市に集中しているのに比べて、冬はスキーなど自然環境に左右されることから、

自国開催とメダル数の関係

本題です。

まず、提供データに対して「自国開催かどうか」というダミー変数を作らなければいけませんが、これは提供データの「NOC」列(選手の所属)と、都市データの「iso3」列に、国の略称が記録されているため、開催都市と開催国を紐付けた時点のデータを利用すれば可能です。下記はデータ処理後の外観を見るために10件サンプリングしたものになります。

ID Name Team NOC Year Season City Sport Event Medal_dummy country iso3 my_country
75530 Arthur Martin Canada CAN 1908 Summer London Shooting Shooting Men’s Free Rifle, 1,000 Yards 0 Canada CAN 1
113511 Dmitry Vladimirovich Sovolyov Russia RUS 2014 Winter Sochi Figure Skating Figure Skating Mixed Team 1 Russia RUS 1
87706 Atsushi Obayashi Japan JPN 1964 Summer Tokyo Swimming Swimming Men’s 200 metres Butterfly 0 Japan JPN 1
60227 Kim Seong-Ho South Korea KOR 1988 Summer Seoul Modern Pentathlon Modern Pentathlon Men’s Team 0 Korea, South KOR 1
98353 John B. Rahm United States Golf Association-3 USA 1904 Summer St. Louis Golf Golf Men’s Team 1 United States USA 1
30158 Taylor Drysdale United States USA 1936 Summer Berlin Swimming Swimming Men’s 100 metres Backstroke 0 United States USA 1
119656 Alvar Thiel Sans Atout-1 SWE 1912 Summer Stockholm Sailing Sailing Mixed 8 metres 1 Sweden SWE 1
95318 Marcella Jeanette “Marcy” Place-von Schottenstein United States USA 1984 Summer Los Angeles Hockey Hockey Women’s Hockey 1 United States USA 1
34578 Richard “Rich” Fellers United States USA 2012 Summer London Equestrianism Equestrianism Mixed Jumping, Individual 0 United States USA 1
128691 Debra Lynn Waples United States USA 1984 Summer Los Angeles Fencing Fencing Women’s Foil, Individual 0 United States USA 1

このデータをもとに、「メダルダミーの平均値(つまりメダル獲得数/出場選手競技数)」を可視化してみます。

まずは夏。

Loading...

アメリカ強い。ただメダル獲得率で言えば強いところは自国開催がなくても強いということが分かります。結局スポーツに力を入れてるかどうか(経済力と相関しそう)が重要なのかも….?

続いて、冬。

Loading...

そもそも出場している国の数などが夏と全然違います。また、夏と比べると自国開催でのメダル獲得率は高いようにも見えます。

今後の課題

  • 自国開催がメダルに影響するかについて、自国開催のときとそうでないときの出場選手(出場競技)数も考慮に入れる必要がありそう。「特定の競技が強い国」の影響を見られるので。
  • 時系列的な変化がわかるともっと面白いかも。
  • 開催都市の可視化について、人工や経済規模を軸に、年代ごとにどのような変化があるかを見てみたい
    • おそらく夏に大都市というのは変わらないだろうが。
  • 自国開催という観点以外にも、今年の東京オリンピックでは気温が話題にあがる多い印象を受けるので、自然環境との関連も見てみたい。(気温などが影響あるのか、など)ただこれは競技にもよりそう。

終わり