長くトレンド入りする動画とは

分析の目的

 EDA Salon 第8回 - YouTubeのトレンディングデータでは、データの中に同一の動画が異なる日付で複数存在しているようです(つまり一定期間トレンド入りし続ける動画が存在する)。個人的に生存分析というものを一度実施してみたかったこともあり、ここではどのような動画がより長くトレンド入りするのかということを生存分析を使用して簡単に確認していきます。

データの確認

 今回のトレンディングデータは日本とアメリカのデータがマージされたものということですので、まずは国別にtrending_date(トレンドになった日)ごとのデータ件数を可視化してみます。

Loading...

 アメリカでは200件の動画がほぼ毎日トレンディングデータとして登録されているのに対して、日本は日々の件数がバラバラです。また、アメリカのデータが2017年11月14日から存在しているのに対して、日本では2018年2月7日からとなっております。そして、どちらのデータにもトレンディングデータが0件の期間が存在しています。

 アメリカのデータの方が扱いやすそうなため、今回はアメリカのデータに絞って分析していきたいと思います。

生存曲線の確認

 まずは生存曲線を描画してみます。アメリカのデータをvideo_id(動画の一意なID)でグルーピングし、video_id(動画の一意なID)ごとのtrending_date(トレンドになった日)の最小値と最大値をもとにした生存期間でグラフを作成します。

 なお、「同一動画のレコード件数 < 計算した生存期間」となるデータが1割弱存在しました。このような事象が発生する原因としては、トレンド入りした動画が一度トレンドからもれた後、再度トレンド入りした場合などが考えられるかと思います。

 しかし、今回はこのようなパターン以外のデータも多く存在しているようです。例えば、2018年の4月7日に一度トレンド入りした後、2018年4月14日からまたトレンド入りしているデータです。このようなデータは再度トレンド入りしたというより、2018年4月8日~2018年4月13日もトレンド入りしていたが、先ほどのグラフの通り正常にデータが取得されなかった可能性が考えられます。

 今回はこのようなデータに対して丁寧に処理を行う時間もなかったため、取り除いたうえで分析をすることにしました。以下がその生存曲線です。  

Loading...

 早い段階でほとんどの動画がトレンドからもれるようになり、一部の動画が長くトレンド入りし続けているようです。「5日」までの生存率が約50%のため、トレンド入りしたデータの半数は5日間以内にトレンドからもれるようです。

コックス回帰分析の実施

 次に、コックス回帰分析を使用して、トレンド入りし続ける期間に影響を与える変数について確認します。分析に使用した説明変数は以下の5つになります。

・category(動画のカテゴリ)
・views(動画のビュー数)
・likes(高評価数)
・dislikes(低評価数)
・comment_count(コメント数)

 なお、上記の変数の値は全て動画がトレンド入りした日の値になります。コックス分析で有意となった係数は以下になります。

Loading...

 まずcategory(動画のカテゴリ)については、「Sports」「News&Politics」のHazard Ratioが1より大きくなっており、「Howto&Style」「Film&Animation」「Music」「Gaming」が1より小さくなっています(ベースレベルは「Entertainment」)。

 確かに「Sports」や「News&Politics」の動画は比較的鮮度が重要であり、これらのジャンルの動画が長くトレンド入りする可能性は低いように感じます。逆に「Music」や「Gaming」は鮮度がそこまで重要ではなく、人気のミュージックビデオやゲーム実況はある程度の期間注目を浴び続けるのかもしれません。

 また、views(動画のビュー数)likes(高評価数)もHazard Ratioが1より小さくなっており、トレンド入りした際にビュー数や高評価数が大きいとしばらくトレンドに入り続けるようです。dislikes(低評価数)comment_count(コメント数)については有意な結果を得られませんでした。

コホート分析

 最後に、それぞれのカテゴリごとの動画をコホートとして、生存曲線を再度描画します。カテゴリ数が多いと描画した際にグラフが見にくいため、コックス回帰分析で有意となったカテゴリとベースレベルの「Entertainment」のみを抽出します。

Loading...

 「Gaming」がほとんどの時点で最も生存率が高くなっており、逆に「Sports」と「News&Politics」の動画は他のジャンルの動画に比べて生存率が低いです。これはコックス回帰分析の結果と一致しているように思います。

 なお、「Sports」の動画は「3日」までの生存率が約50%になっており、この時点までの生存率が約89%の「Gaming」とは大きな差が生じています。また、生存率が0%になるのが最も早いのは「News&Politics」の動画であり、「15日」には生存率が0%になっています。

まとめ

 生存分析の結果として、アメリカのデータにおいてはトレンド入りした時点でviews(動画のビュー数)とlikes(高評価数)が多く、ジャンルが「Gaming」の動画が長くトレンド入りし続けるようです。

 生存分析を実施するのは初めてだったため、誤りや理解不足の箇所がございましたらご指摘等いただけると幸いです。以上、ご覧いただきありがとうございました。