633 測定値

ビジネスインテリジェンスのための AI によるデータ準備の強化

に Cleanlab6m2023/11/07

長すぎる; 読むには

この記事では、データ分析とビジネスインテリジェンスの世界のデータチームがビジネスユーザーに必要なソリューションを構築し、データのインフラストラクチャを構築するエンジニアリングチームと協力する方法について説明します。これらのソリューションを構築するアナリストは、さまざまなソースからデータを準備し、データがクエリ用にサニタイズされていることを確認する必要があります。これはデータ準備ツールを使用して行われます。データ中心の AI プラクティスにより、データのクレンジングステップを自動化し、最小限の労力でよりクリーンなバージョンのデータセットをエクスポートできるようになります。この記事では、効果的なデータ分析にはデータ品質の維持がいかに重要であるか、またデータ中心の AI が AI システムの構築に使用されるデータを体系的にエンジニアリングする学問であることについても説明しています。

featured image - ビジネスインテリジェンスのための AI によるデータ準備の強化

データ分析とビジネスインテリジェンスの世界では、「パープルチーム」とも呼ばれるデータチームは、ビジネスユーザー (赤) が必要とするソリューションを構築し、エンジニアリングチーム (青) と協力して、基本的にデータのインフラストラクチャを構築します。。

BI チームは主に、ビジネスユーザーが使用するレポートや重要なダッシュボードを提供するフローやパイプラインの構築に取り組んでいます。

Mode 、 Superset 、 Lightdashなど、データチームがこれらのエンドユーザーソリューションを構築するのに役立つ新世代のツールや、Tableau や PowerBI など、しばらく「データ分析」分野にいた業界リーダーが多数存在します。

これらのソリューションを構築するアナリストは、さまざまなソースからデータを準備し、クエリ用にデータがサニタイズされていることを確認する必要があります。「データ準備」と呼ばれるワークフロー内のクレンジングステップを実行することを目的とした一連のツールまたは変換。

大規模な言語モデルの出現により、AI について議論することがソフトウェアエンジニアリングスタック全体で共通の傾向になりました。しかし、「データ中心の AIプラクティスを使用すれば、データのクレンジングステップを自動化できる」と言ったらどうなるでしょうか?最小限の労力で、よりクリーンなバージョンのデータセットをエクスポートできるようになります。

このブログでは、データ中心 AI を使用して、BI ツール用にデータを簡単に準備し、その後のデータ分析から信頼できる結論を確実に得る方法について説明します。

データアナリストのワークフロー

数年前、データアナリストは手動でデータを収集、クリーニング、分析する必要がありましたが、これは時間のかかるプロセスであり、貴重な洞察を得る能力が制限されていました。

現在、データ分析の状況は、 Alteryx 、 Tableauなどのデータ準備ツールの導入により大幅に変化しています。

これらの効率的なツールによりワークフローが簡素化され、アナリストが複数のソースからのデータをシームレスに統合し、データクリーニングタスクを自動化し、視覚的に魅力的で洞察力に富んだデータ表現を生成できるようになりました。

手動によるデータ準備後のデータ分析

ツールを使用して準備されたデータは、特定のビジネスクエリを識別するために BI ツールを使用して分析されます。

たとえば、銀行内の顧客リクエストのこのデータセットを考えてみましょう。このデータセットでは、顧客が遭遇した問題を顧客サービスポータルに記録し、人間または自動のタスクマネージャーがラベルを付けます。

ビジネスアナリストが、特定の問題カテゴリに対して発生する顧客リクエストの数を判断する場合を想像してください。以下は、彼/彼女が目にする結果です - beneficiary_not_allowedカテゴリに111顧客の問題が表示されています。

同様に、アナリストがATMという単語に関連する問題のインスタンスがいくつあるかを知りたい場合、簡単な分析により以下の視覚的表現が返されます。 change_pinカテゴリの問題の数に注目してください。

シンプルで単純そうに見えますが、データセットを深く掘り下げると、いくつかのケースで顧客リクエストの分類が間違っていることがわかります。

例えば：

文章	ラベル (データセットごと)	ラベル（理想的には）
私のカードの有効期限がもうすぐ切れてしまいます。新しいものはどれくらいで入手できますか?また、価格はいくらですか?	apple_pay_or_google_pay	期限切れ間近のカード

現実世界のデータの大部分は乱雑で構造化されていないため、統計から値を推定することが困難です。人間と機械がデータに基づいて意思決定を行えるようにするためには、データに適切なラベルが付けられ、誤ったデータが排除され、重複が排除されることが重要です。

データ中心の AI

分析に使用されるデータが正確で最新であり、重複がないことを確認することが重要です。そうしないと、誤った決定や結論が下される可能性があります。たとえば、ユーザープロファイルデータ内の空の場所フィールドや場所フィールドの形式が一貫していない場合、エラーが発生する可能性があります。したがって、効果的なデータ分析にはデータ品質を維持することが重要です。

データ中心 AI は、AI システムの構築に使用されるデータを体系的にエンジニアリングする分野です。現実世界のほとんどのデータは構造化されていないか、間違ってラベル付けされています。ラベル付きトレーニングデータの適切なセットを含む高品質のデータセットは、より良い結果を予測できる効率的なモデルにつながります。

より良い結果はより良い顧客エクスペリエンスをもたらします。詳細については、MIT のデータ中心 AIコースを参照してください。

クリーンラボのご紹介

Cleanlab は、データセット内の問題を自動的に検出してデータとラベルをクリーンアップするのに役立つオープンソースプロジェクトです。 Cleanlab は、Curtis Northcutt ( Cleanlab.aiの共同創設者でもある) らによるデータセットラベルの不確実性の推定について述べた論文に基づいた、確信学習を使用します。

Cleanlab は基本的に AI を導入することでデータ分析ワークフローを強化します。

Cleanlab Studio を使用してデータを自動クリーンアップする

Cleanlab Studio は、オープンソースパッケージ Cleanlab 上に構築されたノーコードツールで、分析ワークフロー用のデータの準備に役立ちます。 Databricks 、 Snowflakeなどのデータウェアハウス、またはAWS S3などのクラウドオブジェクトストアからデータをインポートすることもできます。

ステップ1：

Cleanlab Studioにアクセスするにはサインアップしてください。

いくつかのサンプルデータセットとプロジェクトを含むダッシュボードにログオンします。

ステップ2：

[データセットのアップロード] をクリックしてアップロードウィザードを開始します。データセットは、コンピューター、URL、API、またはDatabricksや Snowflake などのデータウェアハウスからアップロードできます。

Cleanlab Studio は、データスキーマとモダリティ (テキスト、画像、音声、表形式など) を自動的に推測します。

詳細を確認すると、アップロードされたデータセットと、データのアップロード中に発生した関連エラー (存在する場合) を示す画面が表示されます。

注: データセットによっては、アップロードに数分かかる場合があります。データセットが Cleanlab Studio に完全にアップロードされたら、Cleanlab から電子メールで通知されます。

ステップ 3:

データセットの種類に基づいて、特定の機械学習タスクを使用してデータの問題を特定できます。現在、Cleanlab Studio は、テキスト、表形式、画像データに関連するいくつかの ML 分類タスクをサポートしています。

分類に特有の、K クラスの 1 つ、または K クラスの 1 ～ N になります。このデータセットでは、顧客の各リクエストが特定のカテゴリに分類されます。それは「マルチクラス」分類になります。

Cleanlab Studio は、選択したテキストとラベルの列を自動検出します。必要に応じて修正できます。

高速なモデルを使用しても最良の結果が得られない可能性があります。時間の都合上、Fast を選択することもできます。

「データをクリーンアップ!」を押します。」

ステップ 4:

Cleanlab Studio はデータセット上でモデルのアンサンブルを実行し、問題の概要を表示します。

前に指摘したように、データセットには誤って分類されたデータと外れ値が含まれており、分析しても意思決定プロセス全体に価値が付加されない可能性があります。

上部の分析ビューに切り替えると、Cleanlab Studio によってデータセット上で特定された問題のメタ分析を確認することもできます。

ステップ5:

Cleanlab Studio の興味深い点は、クリーンなデータセットをエクスポートするだけでなく、データの問題指向のビューを提供することです。データアナリストとビジネスインテリジェンスのユーザーが長年望んでいた、欠けていたデータ準備ワークベンチ。

Cleanlab Studio で提供されるキーボード支援アクションによって各問題を並べ替えたり、下のボタンをクリックして「クリーンセットのエクスポート」をエクスポートしたりできます。

AI支援によるデータ準備後のデータ分析

クリーン化されたデータセットを使用して同じデータ分析を調べてみましょう。

cancel_transferカテゴリとvisa_or_mastercardカテゴリの間で数値に不一致があるようです。これは小規模なデータセットですが、これらのデータ修正は、より大規模な場合に大幅に異なる推定値や潜在的なビジネス上の意思決定につながる可能性があることに注意することが重要です。

同様に、問題が適切にマークされると、一部のカテゴリに対する顧客のリクエストが消えることがわかります。

あなたがデータアナリストまたはビジネスインテリジェンスコミュニティの一員である場合、Cleanlab Studio はデータ準備ワークフローに革命を起こすことができます。今すぐCleanlab Studioを試して、より信頼性が高く正確なデータ分析を実現する AI 支援のデータクリーニングの力を体験してください。

結論

Cleanlab Studio は、フォーチュン 500 企業の何千人ものエンジニア、アナリスト、データサイエンティストによって使用されているノーコードのデータ準備ワークベンチです。この革新的なプラットフォームは、現実世界の誤ったデータを使用して、より信頼性が高く正確な機械学習モデルをトレーニングするために MIT で開発されました。詳細については、Slack コミュニティに参加してください。