今日の世界では、 ChatGPTのような強力な AI モデルやビジョン モデル、その他の同様のテクノロジーのおかげで、私たちは膨大な量のデータにアクセスできます。ただし、これらのモデルが依存するデータの量だけでなく、品質も重要です。優れたデータセットを迅速かつ大規模に作成することは、困難でコストがかかる作業となる可能性があります。
簡単に言えば、アクティブ ラーニングの目的は、データセットのアノテーションを最適化し、最小限のトレーニング データを使用して可能な限り最良のモデルをトレーニングすることです。
これは、モデルの予測とデータの間の反復プロセスを含む教師あり学習アプローチです。完全なデータセットを待つ代わりに、厳選された注釈付きデータの小さなバッチから開始して、それを使用してモデルをトレーニングできます。
次に、アクティブ ラーニングを使用して、モデルを活用して、目に見えないデータにラベルを付け、予測の精度を評価し、取得関数に基づいて注釈を付ける次のデータ セットを選択できます。
アクティブ ラーニングの利点の 1 つは、モデルの予測の信頼レベルを分析できることです。
予測の信頼度が低い場合、モデルはそのタイプの追加画像にラベルを付けるように要求します。一方、信頼性の高い予測には追加のデータは必要ありません。全体的に注釈を付ける画像の数を減らすことで、最適化されたモデルを実現しながら時間とコストを節約できます。アクティブ ラーニングは、大規模なデータセットを操作するための非常に有望なアプローチです。
まず、人間による注釈が含まれており、モデルの予測の品質を制御できるようになります。それは何百万もの画像で訓練されたブラックボックスではありません。あなたはその開発に積極的に参加し、そのパフォーマンスの向上を支援します。この側面により、教師なしアプローチと比較してコストが増加する可能性がありますが、アクティブ ラーニングが重要かつ興味深いものになります。ただし、モデルのトレーニングとデプロイにかかる時間の節約は、多くの場合、これらのコストを上回ります。
さらに、自動注釈ツールを使用して手動で修正できるため、経費をさらに削減できます。
アクティブ ラーニングでは、モデルのトレーニングに使用されるラベル付きデータ セットがあり、ラベルなしセットにはまだ注釈が付けられていない潜在的なデータが含まれています。重要な概念は、どのデータにラベルを付けるかを決定するクエリ戦略です。ラベルのないデータの大規模なプールから最も有益なサブセットを見つけるには、さまざまなアプローチがあります。たとえば、不確実性サンプリングには、ラベルのないデータでモデルをテストし、最も信頼性の低い分類された例をアノテーション用に選択することが含まれます。
アクティブ ラーニングのもう 1 つの手法は、委員会によるクエリ (QBC) です。これは、ラベル付きデータの異なるサブセットでそれぞれトレーニングされた複数のモデルが委員会を形成します。さまざまな経験を持つ人々が特定の概念についてさまざまな理解を持っているのと同じように、これらのモデルは分類問題に関して異なる視点を持っています。注釈を付けるデータは、複雑さを示す委員会モデル間の不一致に基づいて選択されます。この反復プロセスは、選択されたデータに継続的に注釈が付けられるまで続きます。
ご興味があれば、他の機械学習戦略に関する詳細情報やビデオを提供できます。アクティブ ラーニングの実例は、Google のキャプチャに答える場合です。そうすることで、複雑な画像を識別し、複数のユーザーの集合的な入力を使用してデータセットを構築し、データセットの品質と人間による検証の両方を確保できるようになります。したがって、次回キャプチャに遭遇したときは、AI モデルの進歩に貢献していることを思い出してください。