AIを活用してデータ分析-MinusXを試してみた-
MinusXとは?
MinusXとは、JupyterやMetabaseなどの分析アプリにサイドチャットを追加するChrome拡張機能です。
チャットベースや分析したい部分を選択することで、MinusXがAIを利用してデータを分析し、分析した結果が出力されます。
プラン
2024年8月26日(月)現在、MinusXは無料で使用できます。
MinusXによると、将来的にはおそらく月額サブスクリプション料金を課し、ローカルモデルや自前のキーをサポートすることも検討中のようです。
The product is currently free to use. In the future, we'll probably charge a monthly subscription fee, and support local models/bring-your-own-keys. But we're still working that out.
そのため、MinusXは将来的に課金する必要が出てきそうなので、無料で使える今の期間に沢山試してみたいですね!
サポート または サポート予定のツール
公式によるとMinusXは現在、JupyterとMetabase上で実行可能となっております。
将来的には、TableauやGrafana、Google Colab、Google Sheetsもサポートする計画が立てられているようです。
- Jupyter (現在利用可能)
- Metabase (現在利用可能)
- Tableau (8月にリリース予定)
- Grafana (8月にリリース予定)
- Google Colab (具体的な時期は未定)
- Google Sheets (具体的な時期は未定)
MinusXがサポートしているAIモデル
2024年8月26日(月)現在、MinusXがサポートしているAIモデルは以下です。
- Claude Sonnet 3.5
- GPT-4o
- GPT-4o mini
また、公式サイトにはAIモデルをインポートする機能の開発にも取り組んでいると記載されています。
Currently we support Claude Sonnet 3.5, GPT-4o and GPT-4o mini. We are also working on a way to let you choose your own models as well as bring your own models.
Claude Sonnet 3.5については、以前にこちらの記事で取り上げました。
データ分析におけるプライバシーポリシー
MinusXのプライバシーポリシーには以下のように記載されております。
- 現在、すべてのLLMリクエストは我々のサーバーを通してプロキシしています。これは、ローカルモデルや自前のキーをサポートするようになると変更される予定です。
- このデータの匿名化されたバージョンを使用して、私たち自身のモデルをトレーニングし、最高のデータサイエンスエージェントを提供しています。
- 現在、製品を迅速に改善するために、拡張機能にPosthogテレメトリを統合しています。アプリの設定でいつでもすべてのテレメトリをオフにすることができます。
- すべてのメタデータをあなたのブラウザに保存しています。これには、テーブルスキーマ、コード、クエリ、およびクエリ出力のサンプルが含まれます。これはあなたの指示のコンテキストを設定するために使用され、LLMに送信されます。
- 非常に堅牢なプライバシーポリシーを持つLLM APIのみをサポートしています。
- あなたの明示的な許可なしに、あなたのデータを誰とも共有することはありません。
上記により、
- 私たちのChrome拡張機能を通してのリクエストは、LLMのAPIに直接送られるのではなく、MinusXのサーバーを経由する
- 提供されたデータは、匿名化し、MinusXのモデルのトレーニングに使用される
- 明示的な許可なしに、私たちのデータは共有されない(メタデータはブラウザに保存される)
ということが伺えます。
JupyterやMetabaseなどの分析には、あまり公にできないデータを使用していることもあるかもしれないので、MinusXを使う際は上記のプライバシーポリシーが使用を検討する一つの指標になりそうですね。
MinusXを試してみた
ここでは実際に以下の手順でMinusXを試してみます。
- MinusXをChromeに追加
- JupyterでMinusXを使用
- MinusXでチャットベースの分析
- MinusX側からのSuggestionsで分析
MinusXをChromeに追加
MinusXは以下からChromeの拡張機能として追加可能です。
上記でChromeに追加を押すと以下の画面になります。
JupyterでMinusXを使用
今回はPlaygroundにもあるJupyterでMinusXを使ってみます。
Playgroundの画面から、JupyterのGo To Playgroundを押下。
すると、以下の画面に遷移します。
※今回分析に使用したデータも全てPlaygroundに既に設定されているデータを用いました。
※注意
JupyterでChromeの拡張機能であるMinusXを使用する際に、自分の環境では初回使用時は画面内にMinusXが表示されませんでした。
これの対応としては、JupyterのMinusXを使用した行を選択することで、表示されるようになりました。
MinusXでチャットベースの分析
MinusXの利用はとても簡単です。
Jupyterの分析したいセルを選択し、MinusXのチャット部分に分析したい内容を入力すると実行結果が新規で追加されたセルに表示されます。
日本語での入力も可能です。
今回は試しにPlaygroundに予め用意されている表から、batchがS05
であるcompany_nameを抽出してもらいました。
画像より、batchがS05
であるcompany_nameが列挙されていることが分かります。
MinusX側からのSuggestionsで分析
MinusXには、Suggestionsという機能があります。
これは、分析する項目を提案してくれる機能です。
今回は、”バッチタイミングとの相関性を調査”という項目を選びました。
すると、
バッチタイミングとの相関関係について、具体的にどのような点を調査したいのか明らかにしていただけますか?例えば、バッチタイミングと会社の成功、創業者数、またはその他の指標との相関関係に興味があるのでしょうか?
という結果が返ってきました。
そのため、”batchとteam_sizeとの相関性について”と回答すると、
バッチインデックスとチームサイズの相関は「nan」となった。これは通常、データに欠損値や無限大の値がある場合に発生します。これらの欠損値を処理して相関を再計算しましょうか?
という結果が返ってきました。
※実際にteam_sizeの部分で、欠損値がありました
今回行った分析結果とその結果からの提案がされたので、その提案を実行するようにしてみます。
すると、
バッチインデックスとチームサイズの相関は約-0.13である。これは弱い負の相関を示しており、バッチ指数が高くなるにつれて、チーム規模がやや小さくなる傾向があることを意味している。
という分析結果が出されました。
相関の数値だけでなく、その数値がもつ意味も踏まえて回答してくれため、自分のようなデータ分析にあまり精通していない方でもデータが持つ傾向を理解する手助けになります。
評論
JupyterにおいてMinusXは、分析したいセルごとに分析内容を指定し、AIが分析を行ってくれるので非常に便利だと感じました。
実際に、分析結果からデータの欠損値の指摘、そして修正の提案と修正を行なってくれるのは驚きです。
一方、懸念点としては、日本語でのチャットは可能ですが、漢字変換を行った後、決定するためにEnterを押すと、画像のように、直ぐに実行されてしまうという点が挙げられます。
そのため、変換を決定する時にはShift + Enterを押す必要があります。
また、Suggestions機能で提案されたものが情報不足で回答できないという点が個人的には、Suggestionsされる時点で、もう少し情報を含めた提案がされればありがたいなと感じました。
まとめ
今回、初めてMinusXというChrome拡張機能を使用しました。
普段、Jupyterなどを使ってのデータ分析はあまりしないため、データの分析が必要になった時には、自分にとって、とても心強い味方になってくれそうです。
現在は、JupyterやMetabaseのみ利用可能となっていますが、今後、TableauやGoogle Colabなどでも利用可能になる計画が進められているみたいなので、MinusXのこれからに注目です。