データサイエンスの80%の時間は「データラングリング」に費やされているとは、普段データに直接触れている人達の間でよく言われていることです。
データラングリングとは、データをきれいにしたり、分析できる形に整えたり、様々な質問に答えるためにデータの形を柔軟に変換したりするためのデータの加工に関する手法をまとめたものです。
ここ10年近くのテクノロジーの進化によって様々な場所からデータを収集、取得することが格段に簡単になりました。
しかし、残念ながら、大きな投資をかけ、データを収集する基盤を作り、大量のデータを取得したものの、いざそのデータから何らかのインサイトを得ようとした途端に、多くの人たちは立ち止まってしまうことになり、そういったデータは有効に活用されずにいるというのが現実です。
なぜなら、そのようなデータは分析しやすいような形ではなく、データを収集しやすいような形で保存されているためです。
例えば、以下のような問題に出会ったことがある人も多いのではないでしょうか。
- 日付データであるはずのデータが文字列になっているために、時系列に従った可視化ができない。
- 一部にあからさまに間違っているようなデータが入っているが、それを手動で一つ一つ修正している間に時間が無くなってしまう。
- 似たような名前のデータが複数あるため、それらが別々に集計されてしまうことで、データを正しく比較できない。
- 顧客に関するデータが複数の場所またはファイルに別れて保存されているために、全ての顧客データをまとめて分析できない。
こうした問題は氷山の一角ですが、こうした問題を解決しているうちに本来の目的であったデータ分析をする時間がなくなってしまうということがよくあります。
しかし逆を返すと、こうしたデータを効率的に自由自在に加工することさえできれば、複雑な機械学習や統計のアルゴリズムを使うことなしに、ちょっと可視化するだけでも驚くほど簡単にビジネスに役に立つインサイトを得ることができます。
私達はこの4年間データサイエンスの民主化の旗を掲げ、より多くの人がデータサイエンスを簡単に使えるようにと、ExploratoryというUIツールを作ったり、データサイエンスに関連する様々なトレーニングを提供してきました。
その中でExploratoryのユーザーの方、トレーニングの参加者から一番多く寄せられる質問や相談がこのデータラングリングに関するものです。
これまでも多くのHow-toチュートリアルを提供したり、毎週のようにセミナーを開催してきましたが、特にこれから始めたいという方にとっては、どこから始めればいいのかということで逆に情報の海に溺れてしまうことになりかねないと思いました。
そこで、この度、データラングリングの手法を1から体系的に、そしてもっとも効果的に身に着けてもらおうという思いから、データラングリング・ワークショップというトレーニングの提供を開始することにしました。
こちらはデータに関して初心者でも参加できるようになっております。また、すでにデータ分析やデータの可視化など行っている方たちにとっても、より実践的で役に立つ内容となっております。
今日のような簡単にデータを取得できる時代では、多くのデータを収集したり保存したりすることができること自体は競争優位にはなりません。
そうしたデータを使って、自分たちのビジネスにユニークな質問にいかに速く答えることができるか、いかに速く意思決定に役立つ知識を獲得できるかが差をつけます。
そのためには、そうした質問に答えるために柔軟にデータを操作することができるスキル、これこそが今日のデータサイエンスにとって一番重要なスキルだと思います。
データを自由自在に操れることで、実は思った以上に役に立つデータが身の回りにあるということに気づかれるはずです。そして思った以上にデータを使って答えることのできる質問がこの世の中には多くあるということにも気づいていただけると思っております。
ぜひ、この機会にいっしょにデータラングリングのスキルを基礎から体系的に学びませんか?