今回はユニコーン企業のデータを使用します。
投資家(Investors)の列にあるSoftbankに着目してみます。
テーブルフィルタを使ってSoftbankのデータに絞り込みます。
列にInvestorsを選択し、タイプにはこの文字列を含むを選択します。
大文字と小文字を区別しないにチェックをして、値にsoftbankと入力して実行します。
テーブル・ビューのフィルタを使ってSoftbankのみ表示することができました。
どうやら、Softbank GroupとSoftbankで種類が分かれているようです。
そのため、Softbank Groupの "Group" の文字を取り除いて、Softbankにまとめたいのが今回やりたいことです。
Investorsの列ヘッダメニューからテキストデータの加工(UI) を選び、取り除くを選択します。
テキストデータの加工のダイアログが表示します。
取り除きたい文字にGroupを入力します。
プレビューボタンをクリックすると、Groupが取り除かれています。
新しく列を作成にチェックをして、任意の列名を入力して実行します。
文字列からGroupを取り除き、Softbankにまとめることができました。
しかし、Softbank Capitalといった種類があったようです
"Group"と"Capital"の両方をいっぺんに取り除きたいです。
テキストデータの加工のステップにあるトークンをクリックします。
取り除くのタイプにテキスト (複数の候補) を選択します。
取り除きたい文字はコンマ(,)で区切って複数指定できます。
今回の場合は、GroupとCapitalと入力します。
プレビューボタンをクリックすると、GroupとCapitalを取り除くことができています。
しかし、取り除きたくない文字まで取り除かれてしまいます。
本来は、Softbank Capitalのように末尾にある一致した文字のみ取り除きたいです。
そういった時には、位置を指定することで、末尾にある一致した文字を取り除くことができます。
デフォルトは位置の指定なしで、位置に関係なく文字が一致していれば取り除くことができます。
位置(先頭)では文字列の先頭で一致した文字を取り除くことができ、位置(末尾)では最後に一致した文字を取り除くことができます。
そのため、位置に末尾を指定します。
末尾にある一致した文字のみ取り除かれています。
Softbankの後にある不要な文字を取り除き、Softbankにまとめることができました。