データ分析とビジネス インテリジェンスの世界では、「パープル チーム」とも呼ばれるデータ チームは、ビジネス ユーザー (赤) が必要とするソリューションを構築し、エンジニアリング チーム (青) と協力して、基本的にデータのインフラストラクチャを構築します。 。
BI チームは主に、ビジネス ユーザーが使用するレポートや重要なダッシュボードを提供するフローやパイプラインの構築に取り組んでいます。
Mode 、 Superset 、 Lightdashなど、データ チームがこれらのエンドユーザー ソリューションを構築するのに役立つ新世代のツールや、Tableau や PowerBI など、しばらく「データ分析」分野にいた業界リーダーが多数存在します。
これらのソリューションを構築するアナリストは、さまざまなソースからデータを準備し、クエリ用にデータがサニタイズされていることを確認する必要があります。 「データ準備」と呼ばれるワークフロー内のクレンジング ステップを実行することを目的とした一連のツールまたは変換。
大規模な言語モデルの出現により、AI について議論することがソフトウェア エンジニアリング スタック全体で共通の傾向になりました。しかし、「データ中心の AIプラクティスを使用すれば、データのクレンジング ステップを自動化できる」と言ったらどうなるでしょうか?最小限の労力で、よりクリーンなバージョンのデータセットをエクスポートできるようになります。
このブログでは、データ中心 AI を使用して、BI ツール用にデータを簡単に準備し、その後のデータ分析から信頼できる結論を確実に得る方法について説明します。
数年前、データ アナリストは手動でデータを収集、クリーニング、分析する必要がありましたが、これは時間のかかるプロセスであり、貴重な洞察を得る能力が制限されていました。
現在、データ分析の状況は、 Alteryx 、 Tableauなどのデータ準備ツールの導入により大幅に変化しています。
これらの効率的なツールによりワークフローが簡素化され、アナリストが複数のソースからのデータをシームレスに統合し、データ クリーニング タスクを自動化し、視覚的に魅力的で洞察力に富んだデータ表現を生成できるようになりました。
ツールを使用して準備されたデータは、特定のビジネス クエリを識別するために BI ツールを使用して分析されます。
たとえば、銀行内の顧客リクエストのこのデータセットを考えてみましょう。このデータセットでは、顧客が遭遇した問題を顧客サービス ポータルに記録し、人間または自動のタスク マネージャーがラベルを付けます。
ビジネス アナリストが、特定の問題カテゴリに対して発生する顧客リクエストの数を判断する場合を想像してください。以下は、彼/彼女が目にする結果です - beneficiary_not_allowed
カテゴリに111
顧客の問題が表示されています。
同様に、アナリストがATM
という単語に関連する問題のインスタンスがいくつあるかを知りたい場合、簡単な分析により以下の視覚的表現が返されます。 change_pin
カテゴリの問題の数に注目してください。
シンプルで単純そうに見えますが、データセットを深く掘り下げると、いくつかのケースで顧客リクエストの分類が間違っていることがわかります。
例えば:
文章 | ラベル (データセットごと) | ラベル(理想的には) |
---|---|---|
私のカードの有効期限がもうすぐ切れてしまいます。新しいものはどれくらいで入手できますか?また、価格はいくらですか? | apple_pay_or_google_pay | 期限切れ間近のカード |
現実世界のデータの大部分は乱雑で構造化されていないため、統計から値を推定することが困難です。人間と機械がデータに基づいて意思決定を行えるようにするためには、データに適切なラベルが付けられ、誤ったデータが排除され、重複が排除されることが重要です。
分析に使用されるデータが正確で最新であり、重複がないことを確認することが重要です。そうしないと、誤った決定や結論が下される可能性があります。たとえば、ユーザー プロファイル データ内の空の場所フィールドや場所フィールドの形式が一貫していない場合、エラーが発生する可能性があります。したがって、効果的なデータ分析にはデータ品質を維持することが重要です。
データ中心 AI は、AI システムの構築に使用されるデータを体系的にエンジニアリングする分野です。現実世界のほとんどのデータは構造化されていないか、間違ってラベル付けされています。ラベル付きトレーニング データの適切なセットを含む高品質のデータセットは、より良い結果を予測できる効率的なモデルにつながります。
より良い結果はより良い顧客エクスペリエンスをもたらします。詳細については、MIT のデータ中心 AIコースを参照してください。
Cleanlab は、データセット内の問題を自動的に検出してデータとラベルをクリーンアップするのに役立つオープンソース プロジェクトです。 Cleanlab は、Curtis Northcutt ( Cleanlab.aiの共同創設者でもある) らによるデータセット ラベルの不確実性の推定について述べた論文に基づいた、確信学習を使用します。
Cleanlab は基本的に AI を導入することでデータ分析ワークフローを強化します。
Cleanlab Studio は、オープンソース パッケージ Cleanlab 上に構築されたノーコード ツールで、分析ワークフロー用のデータの準備に役立ちます。 Databricks 、 Snowflakeなどのデータ ウェアハウス、またはAWS S3などのクラウド オブジェクト ストアからデータをインポートすることもできます。
Cleanlab Studioにアクセスするにはサインアップしてください。
いくつかのサンプル データセットとプロジェクトを含むダッシュボードにログオンします。
[データセットのアップロード] をクリックしてアップロード ウィザードを開始します。データセットは、コンピューター、URL、API、またはDatabricksや Snowflake などのデータ ウェアハウスからアップロードできます。
Cleanlab Studio は、データ スキーマとモダリティ (テキスト、画像、音声、表形式など) を自動的に推測します。
詳細を確認すると、アップロードされたデータセットと、データのアップロード中に発生した関連エラー (存在する場合) を示す画面が表示されます。
注: データセットによっては、アップロードに数分かかる場合があります。データセットが Cleanlab Studio に完全にアップロードされたら、Cleanlab から電子メールで通知されます。
データセットの種類に基づいて、特定の機械学習タスクを使用してデータの問題を特定できます。現在、Cleanlab Studio は、テキスト、表形式、画像データに関連するいくつかの ML 分類タスクをサポートしています。
分類に特有の、K クラスの 1 つ、または K クラスの 1 ~ N になります。このデータセットでは、顧客の各リクエストが特定のカテゴリに分類されます。それは「マルチクラス」分類になります。
Cleanlab Studio は、選択したテキストとラベルの列を自動検出します。必要に応じて修正できます。
高速なモデルを使用しても最良の結果が得られない可能性があります。時間の都合上、Fast を選択することもできます。
「データをクリーンアップ!」を押します。 」
Cleanlab Studio はデータセット上でモデルのアンサンブルを実行し、問題の概要を表示します。
前に指摘したように、データセットには誤って分類されたデータと外れ値が含まれており、分析しても意思決定プロセス全体に価値が付加されない可能性があります。
上部の分析ビューに切り替えると、Cleanlab Studio によってデータセット上で特定された問題のメタ分析を確認することもできます。
Cleanlab Studio の興味深い点は、クリーンなデータセットをエクスポートするだけでなく、データの問題指向のビューを提供することです。データ アナリストとビジネス インテリジェンスのユーザーが長年望んでいた、欠けていたデータ準備ワークベンチ。
Cleanlab Studio で提供されるキーボード支援アクションによって各問題を並べ替えたり、下のボタンをクリックして「クリーンセットのエクスポート」をエクスポートしたりできます。
クリーン化されたデータセットを使用して同じデータ分析を調べてみましょう。
cancel_transfer
カテゴリとvisa_or_mastercard
カテゴリの間で数値に不一致があるようです。これは小規模なデータセットですが、これらのデータ修正は、より大規模な場合に大幅に異なる推定値や潜在的なビジネス上の意思決定につながる可能性があることに注意することが重要です。
同様に、問題が適切にマークされると、一部のカテゴリに対する顧客のリクエストが消えることがわかります。
あなたがデータ アナリストまたはビジネス インテリジェンス コミュニティの一員である場合、Cleanlab Studio はデータ準備ワークフローに革命を起こすことができます。今すぐCleanlab Studioを試して、より信頼性が高く正確なデータ分析を実現する AI 支援のデータ クリーニングの力を体験してください。
Cleanlab Studio は、フォーチュン 500 企業の何千人ものエンジニア、アナリスト、データ サイエンティストによって使用されているノーコードのデータ準備ワークベンチです。この革新的なプラットフォームは、現実世界の誤ったデータを使用して、より信頼性が高く正確な機械学習モデルをトレーニングするために MIT で開発されました。詳細については、Slack コミュニティに参加してください。