現在、2020年12月に開催予定のトレーニングの受付をしております。 こちらはオンラインでの開催予定です。

詳細は下記にあります開催要項を御覧ください。
データサイエンスの80%の時間は「データラングリング」に費やされているとは、普段データに直接触れている人達の間でよく言われていることです。
データラングリングとは、データをきれいにしたり、分析できる形に整えたり、様々な質問に答えるためにデータの形を柔軟に変換したりするためのデータの加工に関する手法をまとめたものです。
ここ10年近くのテクノロジーの進化によって様々な場所からデータを収集、取得することが格段に簡単になりました。
しかし、残念ながら、大きな投資をかけ、データを収集する基盤を作り、大量のデータを取得したものの、いざそのデータから何らかのインサイトを得ようとした途端に、多くの人たちは立ち止まってしまうことになり、そういったデータは有効に活用されずにいるというのが現実です。
なぜなら、そのようなデータは分析しやすいような形ではなく、データを収集しやすいような形で保存されているためです。
例えば、以下のような問題に出会ったことがある人も多いのではないでしょうか。
  • 日付データであるはずのデータが文字列になっているために、時系列に従った可視化ができない。
  • 一部にあからさまに間違っているようなデータが入っているが、それを手動で一つ一つ修正している間に時間が無くなってしまう。
  • 似たような名前のデータが複数あるため、それらが別々に集計されてしまうことで、データを正しく比較できない。
  • 顧客に関するデータが複数の場所またはファイルに別れて保存されているために、全ての顧客データをまとめて分析できない。
こうした問題は氷山の一角ですが、こうした問題を解決しているうちに本来の目的であったデータ分析をする時間がなくなってしまうということがよくあります。
しかし逆を返すと、こうしたデータを効率的に自由自在に加工することさえできれば、複雑な機械学習や統計のアルゴリズムを使うことなしに、ちょっと可視化するだけでも驚くほど簡単にビジネスに役に立つインサイトを得ることができます。
私達はこの4年間データサイエンスの民主化の旗を掲げ、より多くの人がデータサイエンスを簡単に使えるようにと、ExploratoryというUIツールを作ったり、データサイエンスに関連する様々なトレーニングを提供してきました。
その中でExploratoryのユーザーの方、トレーニングの参加者から一番多く寄せられる質問や相談がこのデータラングリングに関するものです。
これまでも多くのHow-toチュートリアルを提供したり、毎週のようにセミナーを開催してきましたが、特にこれから始めたいという方にとっては、どこから始めればいいのかということで逆に情報の海に溺れてしまうことになりかねないと思いました。
そこで、この度、データラングリングの手法を1から体系的に、そしてもっとも効果的に身に着けてもらおうという思いから、データラングリング・ワークショップというトレーニングの提供を開始することにしました。
こちらはデータに関して初心者でも参加できるようになっております。また、すでにデータ分析やデータの可視化など行っている方たちにとっても、より実践的で役に立つ内容となっております。
今日のような簡単にデータを取得できる時代では、多くのデータを収集したり保存したりすることができること自体は競争優位にはなりません。
そうしたデータを使って、自分たちのビジネスにユニークな質問にいかに速く答えることができるか、いかに速く意思決定に役立つ知識を獲得できるかが差をつけます。
そのためには、そうした質問に答えるために柔軟にデータを操作することができるスキル、これこそが今日のデータサイエンスにとって一番重要なスキルだと思います。
データを自由自在に操れることで、実は思った以上に役に立つデータが身の回りにあるということに気づかれるはずです。そして思った以上にデータを使って答えることのできる質問がこの世の中には多くあるということにも気づいていただけると思っております。
ぜひ、この機会にいっしょにデータラングリングのスキルを基礎から体系的に学びませんか?
 
 
開催要項
このトレーニングは、朝9時から夕方5時までの2日間コースになります。
日時 : 2020年 12月17日(木),18日(金) 9:00-17:00
会場: オンライン (参加者には事前にZoomのURLが送付されます。)
定員: 25名 (最小催行予定数10名)
受講料(税別): 98,000円

3名以上まとめてお申込みの場合にはグループ割引があります。詳しくは下記お問い合わせ先までご連絡ください。
受付締め切り: 12月1日(定員になり次第、受付を終了いたします)
キャンセル料:
  • 実施の15日前以降: 受講料の20%
  • 実施の7日前以降: 受講料の50%
  • 実施の3日前以降: 受講料の100%
受講資格: 特に前提になる条件などはありません。参加には、Mac(OSX 10.11以降)か、Windows(Windows7以降)のノートPC(無線LAN対応)の持参が必要になり、Exploraotryの事前インストールと、申し込み後に送付される事前チュートリアルの実施をお願い致します。
お問い合わせ先: 画面右下の緑色のチャットアイコンを押してチャットでお問い合わせいただくか、support@exploratory.io までメールにてお問い合わせください。
タイムテーブル
1日目
9:00 - 12:00
  • データの基礎
  • データラングリングの基礎と文法
  • 条件式を使ったデータの加工
13:00 - 15:00
  • 表計算 (グループ内の差と割合の計算、移動平均)
  • 日付データの加工
15:00 - 16:00
  • エキササイズ - RFM分析のためのデータの加工
16:00 - 17:00
  • Q&A
2日目
9:00 - 12:00
  • 整然データ
    • 縦長データと横長データ、列の分割、結合
  • テキストデータの加工
    • 削除、抽出、置き換える、変換
  • テキスト分析
    • 文章の単語化、単語のペアを数える
13:00 - 14:30
  • 順序付きカテゴリーデータ
  • 欠損値の処理
14:30 - 16:30
  • エキササイズ
    • このトレーニングで学んだ様々なデータの加工方法を駆使して、データを分析しやすい形に加工、変換していきます。実在するオープンデータをもとに行い、より実践的なデータの加工スキルを身に付けていただきます。
16:30 - 17:00
  • Q&A、総括
講師
西田勘一郎 (CEO, Exploratory) Twitter
2016年初頭に、オープンソースの世界で起きているデータサイエンスの革新的な技術や新しい手法を、世界の全ての人たちが使えるようにするというビジョンのもと、Exploratory, Inc を立ち上げる。

米オラクル本社で、16年にわたりデータサイエンスの開発チームを率い、機械学習、ビッグ・データ、ビジネス・インテリジェンス、データベースに関する数多くの製品を世に送り出すかたわら、世界中の企業へのトレーニング、コンサルテーションを通してデータ・ドリブンなビジネスを可能にするテクノロジーの民主化に努める。

現在はExploratory, Inc.でCEOを務めるかたわら、データサイエンス・ブートキャンプ・トレーニング、日本でのデータサイエンス勉強会などの場を通してシリコンバレーで行われている最先端のデータサイエンスの世界への普及と教育に取り組む。

また現在、日経BPビジネスで「文系でもできるデータサイエンス」というオンライン・セミナーのシリーズを動画で配信中。データサイエンスの様々なトピックに関して、前提知識がなくてもわかりやすいように解説している。
白戸 敬登 (Customer Success, Exploratory)
大学在学中にフードロスを減らすために、学生団体を立ち上げ代表を務める。その後、ビジネスを知るために化学メーカーのデュポンとフードテック系スタートアップで営業とマーケティングを経験。アプリの成長のためにはデータサイエンスが必要だと感じ、アプリに特化したユーザーの行動分析ツールを開発する企業にて、アプリ業界のKPI分析などを担当する。

現在はExploratory, Inc. でカスタマーサクセスを担当する傍ら、データの可視化と探索的データ分析を専門としてデータサイエンスの普及に取り組む。
 
Loading