2020年一発目のEDASalonはオリンピックデータを選びました!
なぜかというと、みなさんご存知の通り、日本でオリンピックが開催されるからです!日本でのオリンピック開催は1964年以来となるので、56年ぶりの自国開催です。
もし、今回のオリンピックが日本以外だったらオリンピックデータを使うのはもっと先だったかもしれません笑
今回はこの自国開催がテーマです。
Edamotoさんの「夏のオリンピックでメダルを獲得する国の特徴を可視化してみた」を読んでいると、
開催国=参加種目数が多い=メダル獲得数が多い
と言った仮説が挙げられていました。
いくつかの年でその関係性を見られていましたが、「どの年でも自国開催の方が種目数やメダル数は多いのか?」と質問が浮かんできたため、初めて他の人の投稿に乗っかって分析してみます!
分析していく前にデータラングリングして質問に答えられるように準備します。 下記がラングリングした内容のまとめです。
開催国のデータはなかったのでスクレイピングで取得してきました。 データはこちらで公開しています。
EDFでDLできるようにするので、気になる方はインポートしてみてください。
まず最初に、それぞれの年ごとの開催国についてです。
国ごとの開催回数
アメリカが一番多く、次点でギリシャやイギリスが多いことがわかります。
そもそも、オリンピックの開催国に選ばれるような国は先進国でスポーツができる環境があり、そのためオリンピックでの参加競技も多くなるのではと思います。
途上国の場合はそもそも競技が浸透していない可能性などあるので、オリンピック参加者総数で上位50カ国のみを残して分析していこうと思います。
開催国の方がメダルの獲得率が24%と高く、開催国じゃない方は16%という結果になりました。
基本的に同じようなトレンドを描いているような気がしますが、開催国の方がメダル獲得率にばらつきがあるようです。特に、1980年の開催国でのメダル獲得率が67%と異常に高くなっています。
メダルの獲得率を開催国になった時とそうでない時で違うのかを比較すると、平均値で見ると開催国の場合がやはり高いようです。しかしばらつきが多いため一概に言えません。先ほどのメダル獲得率が67%となっていたのはロシアで開催された時のようです。
やはり有意となりました。P値をみても限りなくゼロに近いので、開催国というのは関係しているかもしれません。しかし、この開催国がどうやって選ばれているのかが重要かもしれません。開催国は先進国が選ばれる傾向にあるので、国自体のスポーツ推進力があるのか、それとも自国だから気候や時差などでパフォーマンスが狂わずにできるのかは今回のデータでは定かではありません。
予測影響度をみると、予測値と実測値がエラーバーで可視化されます。
しかしこの値というのは、バーチャートでみた2つのメダル獲得率の平均値です。
今回は、Edamotoさんの投稿を元に、開催国とメダル獲得率の関係性をみてきました。結論としては、開催国だとメダルの獲得率は高い傾向があるというのがわかりました。 しかし、開催国というデータの裏には、たくさんの隠れた変数があるかもしれません。 GDPの列を使って、開催国との関係性を見るのは面白いかもしれません。
最後に、今年の東京オリンピックは楽しみですね!たぶんメダルの獲得率が上がるはずです!