文字列から余計な文字列を取り除く方法

今回はユニコーン企業のデータを使用します。

投資家(Investors)の列にあるSoftbankに着目してみます。

テーブルフィルタを使ってSoftbankのデータに絞り込みます。

列にInvestorsを選択し、タイプにはこの文字列を含むを選択します。

大文字と小文字を区別しないにチェックをして、値にsoftbankと入力して実行します。

テーブル・ビューのフィルタを使ってSoftbankのみ表示することができました。

どうやら、Softbank GroupとSoftbankで種類が分かれているようです。

そのため、Softbank Groupの "Group" の文字を取り除いて、Softbankにまとめたいのが今回やりたいことです。

Investorsの列ヘッダメニューからテキストデータの加工(UI) を選び、取り除くを選択します。

テキストデータの加工のダイアログが表示します。

取り除きたい文字にGroupを入力します。

プレビューボタンをクリックすると、Groupが取り除かれています。

新しく列を作成にチェックをして、任意の列名を入力して実行します。

文字列からGroupを取り除き、Softbankにまとめることができました。

しかし、Softbank Capitalといった種類があったようです

"Group"と"Capital"の両方をいっぺんに取り除きたいです。

テキストデータの加工のステップにあるトークンをクリックします。

取り除くのタイプにテキスト (複数の候補) を選択します。

取り除きたい文字はコンマ(,)で区切って複数指定できます。

今回の場合は、GroupとCapitalと入力します。

プレビューボタンをクリックすると、GroupとCapitalを取り除くことができています。

しかし、取り除きたくない文字まで取り除かれてしまいます。

本来は、Softbank Capitalのように末尾にある一致した文字のみ取り除きたいです。

そういった時には、位置を指定することで、末尾にある一致した文字を取り除くことができます。

デフォルトは位置の指定なしで、位置に関係なく文字が一致していれば取り除くことができます。

位置(先頭)では文字列の先頭で一致した文字を取り除くことができ、位置(末尾)では最後に一致した文字を取り除くことができます。

そのため、位置に末尾を指定します。

末尾にある一致した文字のみ取り除かれています。

Softbankの後にある不要な文字を取り除き、Softbankにまとめることができました。