Youtubeの急上昇動画に関するデータ分析

商学部国際マーケティング学科3年 谷田部雄貴

(1)元のデータへの列追加

元のデータで新規ステップ追加→結合(列を追加)を選択→左部外部結合を選択し、結合先データフレームでcategoryNameのあるものを選択。キー列をcategoryIdに選択。実行

(2)各カテゴリの割合

カテゴリ別割合

Loading...
エンターテイメントとゲーム分野で半分近く占めている。people&blogsも高い。上位5つのカテゴリで八割近く占めている。

(3)日ごとの各カテゴリーの数の変化の折れ線グラフ

日ごとの各カテゴリーの変化

Loading...
(2)で割合が高いエンターテイメントとゲームは安定的に高い水準にある。people&blogsも高いが、上の二つに比べてムラがある。が、上の二つに比べてムラがある。

(4)クラスタリング、考察

高評価率→新規ステップを追加→計算を作成(Mutate)、一つの列を選択→新しい列を作成で、名前をそれぞれ高評価率にする。高評価率の場合は計算エディタに「likes/view_count」と入力し、実行する。%で考えたいときには「*100」をつける。低評価率、コメント率も作成方法は基本的には同じで、名前をそれぞれつけ、割られる数、分子を「likes」、「comments_counts」にすればよい。 「comments_disabled」、「ratings_disbaled」がともにFalseのものを残すにはサマリでそれぞれフィルタを選択しFalseであるを選択。

カテゴリー (比率)

Loading...

クラスター3はview_countとコメント率が高いグループで、クラスター2は高評価率が高く、コメント率も比較的高いグループである。クラスター1はそれ以外のグループである。 内訳をみるとクラスター3は音楽が100%である。これは音楽はアップロードされて、必ず、即座に聞くのはそのアーティストや投稿者のファンが一定数いるため、感想を書いたり、複数回視聴することが関係していると思われる。クラスター2も音楽が多く、それ以外にはエンターテイメント、people&blogsと(2)で割合が多かったものがここに属している。クラスター3と違うのは高評価率が高いという点である。高評価率が高い動画は他の人に表示されやすくなるため急上昇には欠かせない要素である。ここでも(2)で高い割合を占めていたのもがはいっているので、高評価率も急上昇のための重要な要素となる。ただ(2)で割合が高かったゲームはクラスター1での占める割合の方が高く、ゲームはエンタメ性を持つ人というよりかは、ゲームそのものの面白さが支えている面があるはずだ。

(5)ブランチ、ワードクラウド

ブランチを作成するにはそれ以降ブランチを作成したい箇所のステップでブランチを選択する。次にGamingだけに絞る。サマリでcategoryNameを選択し、フィルタで等しいを選択し、値にチェックを入れ、Gamingを選択する。 次にテキストの単語化し、ワードクラウドを作成する。titleでテキストデータの加工を選択し、テキストの単語化を選び実行する。そしてチャートでタイプをワードクラウド、単語をtoken、色で分割、サイズで分割は両方、行の数を選択して実行。

Gamingのワードクラウド

Loading...

「マインクラフト」や「Apex」、「フォートナイト」といった人気ゲームの名前が中心にあることからGamingだけあって、ゲームの名前が頻出している。それ以外であったら「最強」、「最新」、「新」といった興味がそそられるようなtitleが頻出している。ゲーム関連の動画ではこういった単語をタイトルにいれることが急上昇の一因となることがわかった。

(6)独自の分析

独自の分析として曜日ごとの急上昇の動画をまず考えてみる。

曜日ごとのトレンド日の棒グラフ

Loading...

曜日ごとのトレンド日の各カテゴリの割合

Loading...

トレンド日では不自然な棒グラフ、曜日ごとでほとんど変わりのない割合になっている。これはyoutubeが急上昇に表示する動画を制限していると考えられる。x軸を公開日にしても同じ傾向がみられるのかグラフを作成してみる。

曜日ごとの公開日の棒グラフ

Loading...

曜日ごとの公開日の各カテゴリの割合

Loading...
公開日では特にそういった急上昇動画への表示の制限がみられない。割合に関しては曜日でこれといった特徴はみられない。

では次に動画カテゴリをスポーツに絞って考察してみる。以下スポーツのカテゴリに絞っての考察である。

スポーツのカテゴリでのチャンネル名の割合

Loading...
このようになった。この割合を確認するとチャンネルは異なるが、同じ競技のものが複数あることがわかる。そこで競技ごとに整理したのが次のチャートである。

競技ごとのチャンネルの割合

Loading...

ここからスポーツの中では野球と格闘技の割合が高いことがわかる。総合もかなりの割合があるが、ひとつ前のグラフで一番割合を占めているDAZNでも野球は見れる。ひとつ前のグラフでは野球の各球団の名前のチャンネルが見えもする。スポーツのカテゴリ内での野球の急上昇への影響力が強いことがわかる。ここで気になったのは釣りが意外と多かったことだ。年齢層が高い人へ人気なのか、自然がブームなことが関係しているのかは定かではない。ただ。バスケやテニスといったスポーツは総合に含まれていることが多く、それによりこのグラフではテニス、バスケ等のスポーツを差し置いての釣りの存在感の一因であることは確かだ。 またスポーツの動画タイトルでワードクラウドを作成して、傾向を見てみる。

カテゴリーのスポーツにおける動画タイトルのワードクラウド

Loading...

中心にはハイライト、試合、VS、プロといったスポーツに共通するような単語が多い。次に多いものを確認してみると巨人、阪神、野球、打といった野球に関連するものの多さが目立つ。これらのことから急上昇のスポーツの動画では野球の比率が高いことがわかる。これは日本の野球人気がこの結果にもあらわれていると考えられる。

野球は月曜日は試合は休みである。ではtrending dayとpublished dayを比較しながら、月曜日のsportを考察してみる。

まずtrending dayとpublished dayの関係についてである。

スポーツでの公開日、トレンド日の散布図

Loading...
右肩あがりになっており、正の相関がある。

全カテゴリを含む公開日、トレンド日の散布図

Loading...

これはカテゴリを絞ってない散布図であるが、ほぼひとつ前の図と同じく正の相関があり、傾きもほぼ同じである。急上昇と公開日の関係はsportに限った話ではないようである。そもそも一定期間の動画で、また急上昇という名前から正の相関があるのが妥当と言えるかもしれない。

月曜日のスポーツに話を戻す。 #### 曜日ごとの競技別のトレンド日の棒グラフ

Loading...

急上昇動画のスポーツにおける競技ごとの割合では野球が高い比率であったが、曜日別での急上昇の動画のトレンド日をみると、月曜日でのむしろ動画数では多かった。そして金曜日、土曜日、日曜日と、休日、週末の動画数が少なかった。

曜日ごとの競技別の公開日の棒グラフ

Loading...

公開日を確認してみても月曜日は標準ほどであり、野球の動画は公開されている。よって月曜日であるから野球の動画が少ないという関係は見られない。また木曜日は動画の投稿が極端に少ない。

以上のグラフ考察から次の三点のことが分かった。第一に曜日ごとでは急上昇の動画のカテゴリーに変化は見られない。第二に急上昇の動画カテゴリーのなかで5番目の比率を占めるスポーツの内訳では野球の影響力が高い。第三に、では月曜日に試合のない野球ではあるが、月曜日でも動画は公開されていて、急上昇にもなっている、ということである。