
ExploratoryのAIプロンプト機能を活用し、複雑なテキストデータから特定の情報を効率的に抽出する方法について解説します。
特に、一つの列に複数の情報が混在している企業情報データから、企業名などの個別の要素をRスクリプトと正規表現を用いて抽出する方法を紹介します。
企業情報などのテキストデータにおいて、一つの列に企業名、時価総額、設立年月日、業界名といった複数の情報が混在している場合、これらの情報を個別に抽出する作業は非常に複雑です。従来のテキストデータの加工では、正規表現の知識や複雑なパターン認識が必要とでした。
今回使用するデータは企業情報データであり、1つの列に企業名、時価総額、設立年月日、業界名の4つの情報が格納されています。

テーブル・ビューから「AI データ加工」のボタンをクリックします。

プロンプト入力欄に「企業情報の列から企業名を取り出す」と入力し、実行します。

これにより、AIは自動的に適切なRスクリプトを生成してくれます。AIは、企業名のパターンを自動的に識別し、正規表現を生成するため、ユーザーは正規表現の知識がなくても正確な抽出が可能です。

このステップを実行することで、「企業名」という新しい列がデータフレームに追加され、各行から企業名が正確に抽出されます。
