大規模な超大作映画がどのように作られるかご存知ですか? そのプロセスには、慎重に選ばれた場所、プロの機材、俳優、カメラマン、照明の専門家、そして各シーンを正確に再現するスタッフ全員が含まれます。AI の世界では、データ作成は同じように行われます。この映画のプロセスを反映していますが、観客を楽しませることではなく、アルゴリズムが効果的に学習するために必要な「フレーム」を作成することが目標です。
Cognilyticaによると、AI 開発の 80% は実際のトレーニングではなく、データの準備、つまり作成、収集、注釈、処理です。これらの段階の 1 つで、現実世界のデータが不十分な場合は、データ作成が行われます。「シーン」が現実的で多様であればあるほど、AI は賢くなります。
Keymakr のプロジェクト管理責任者である Dennis Sorokin が、データ作成の重要性、プロセス、課題、実際のアプリケーションに関する洞察を共有します。
データ作成は、特定のプロジェクトのニーズに合わせてカスタマイズされた画像およびビデオ データセットを生成するプロセスです。これらのデータセットは、実際のシナリオを正確に反映する必要があります。データ作成は、特に自動車、医療、セキュリティ システム、スポーツ、小売業の分野で、データの品質と量に対する需要の高まりにより、ますます普及しています。企業は、モデルの精度とパフォーマンスを向上させるために、データ作成に投資しています。
データ作成は通常、現実世界のデータが利用できないか不十分な場合に使用されます。このプロセスには次のものが含まれます。
既存のデータセットの拡張:条件の変更、オブジェクトの追加、または変動性の増加。企業は既存のデータセットを購入し、専門の企業に注釈を付けてもらうことができます。
合成データ生成:ソフトウェア ツールを使用して、モデル トレーニング用の画像、テキスト、またはビデオを作成します。たとえば、ソフトウェアは、特定のシナリオに基づいて画像やビデオを生成できます。ただし、合成データには制限があります。合成データは、定義済みのパラメーターに基づいて生成され、実際のデータの自然な変動性がありません。Dennis Sorokin 氏は、「実際のタスクでは、特に 99% を超える精度が求められる場合、合成データでは必要な品質が得られません。エラー率が 0.1% のシステムでも、空港で何百人もの人を誤認したり、道路で危険な状況を引き起こしたりする可能性があります。そのため、カスタム シナリオが重要です。」と説明しています。
エッジケースのデータ作成:モデルの信頼性を確保するために、独自のシナリオで画像や動画をキャプチャします。複雑なタスクでは、実際のデータが不可欠です。たとえば、ドライバーの意識不明を認識するようにモデルをトレーニングするには、さまざまな人がこの状態をシミュレートした動画が少なくとも 1,000 本必要です。参加者には、「意識を失ったふりをする」などの簡単な指示が与えられますが、方法は指定されません。ある人は頭を垂れ、別の人は目を閉じ、別の人は横に傾くかもしれません。この自然な変動により、実際のデータは非常に価値が高くなり、モデルのトレーニング精度が大幅に向上します。
Keymakr のポートフォリオには、機材やカメラから俳優、ヨーロッパ、アメリカ、カナダのロケ地まで、それぞれが独自の要件を持つ多様なプロジェクトの多数の撮影が含まれています。「プロジェクトのすべてのニュアンスを理解することは、独自のソリューションを提供する上で不可欠です。このプロセスはまさにハリウッド映画の監督に似ており、非常に魅力的です。倫理的、道徳的、法的基準に合致する限り、どのようなシナリオでも解決可能です」と Sorokin 氏は言います。
キャビン内プロジェクト
一例として、運転者の注意散漫の検出に焦点を当てたプロジェクトがあります。Keymakr は、次のような一般的な注意散漫行動をシミュレートするさまざまなシナリオを開発しました。
これらのシナリオは、数十人の参加者による制御された条件下でモデル化されました。1 つのプロジェクトでは、1 ~ 5 分の短いビデオ 5,000 本以上で、さまざまな注意散漫な活動を行っている参加者が撮影されました。これにより、システムは行動パターンを認識し、異常な状況に適切に対応できるようになりました。
武力攻撃認定
データ作成は、オフィス セキュリティに重点を置いた AI モデルでよく使用されます。最近のプロジェクトの 1 つでは、次のようなシナリオをシミュレートしました。
モデルのトレーニングには、攻撃的な行動、集団の動き、物体の取り扱いのさまざまな組み合わせを示す 3,000 本以上のビデオが必要でした。
セキュリティプロジェクト
Keymakr は、国境警備隊に代わる空港セキュリティ カメラのプロジェクトに取り組みました。カメラには次の要件がありました。
プロジェクトに必要な条件:
重要な点は、50 歳以上のアフリカ系アメリカ人や南アジア人など、特定の人口統計からデータを収集することでした。このようなニッチなデータは公開されていないため、カスタム データ作成の必要性が強調されています。
Keymakr は、医療プロジェクトやバーチャル フィットネス インストラクター システム向けのデータも作成しています。後者はまだ発展途上ですが、特にリモート トレーニングやリハビリの増加に伴い、需要は高まっています。
Xbox Kinect と同様に、これらのシステムはセンサーを使用してユーザーの動きをリアルタイムで追跡します。最新のテクノロジーにより、モーション トラッキングだけでなく、エクササイズの実行を詳細に分析できます。リハビリテーションでは、指先を特定の角度で肩に伸ばすなど、正確な動きが重要です。システムはフィードバックを提供し、姿勢を修正し、エラーをハイライトし、調整を提案します。
あるプロジェクトでは、 Keymak r はランジ、ジャンプ、レッグレイズなどのエクササイズを含むトレーニングセッションを徹底的に撮影しました。約 60 人の参加者が 15 分間のエクササイズを行い、継続的な録画によって正確なモーション注釈用のデータを収集しました。反復的で高強度のアクティビティのため、若い参加者にとっても撮影は肉体的に厳しいものでした。
医学研究: 光に対する瞳孔の反応
Keymakr は、バイオメトリクス企業のプロジェクトのために、双眼鏡に似た特殊な装置を使用して、光刺激に対する瞳孔の反応に関するデータを収集しました。目標は、変化する光条件に対する瞳孔の反応時間を分析することでした。
約200名の参加者が参加し、手順の安全性を確保するために徹底した説明が行われました。
実験の内容は次のとおりです。
高品質なデータの作成は、慎重な計画、収集、処理、配信を含む複数のステップから成るプロセスです。タスクに応じて、このプロセスは大きく異なります。
主な段階は次のとおりです。
医療研究では特殊なセンサーが使用される
モーション解析にはマルチカメラ設定を採用
車載カメラが運転手や乗客の行動を捉える
撮影前には、機材のチェック、シナリオのテスト、参加者への説明が行われます。実際の操作を厳密に模倣した条件でデータを作成することに特に注意が払われます。たとえば、ドライバーの疲労分析プロジェクトでは、長距離旅行の条件がシミュレートされ、乗り物酔いの研究では、さまざまな移動条件下での乗客の状態の変化が記録されます。
注釈付けには手動の方法と自動ツールの両方が使用されます。クライアントによっては、医療研究における微小な眼球運動の追跡や、数百の運転者行動パラメータの分析など、特定の詳細を要求する場合もあります。
データの保存と転送に関する問題も考慮されます。たとえば、数時間にわたる撮影による 4K ビデオの容量は数テラバイトに達する可能性があり、特別なサーバーまたはクラウド ソリューションが必要になります。
データ作成を提供する場合、技術的な制限だけでなく、データの取り扱いに関する法的および倫理的側面も考慮することが重要です。
「あらゆる詳細が重要となるデータの世界では、データを作成するだけでは不十分です。データの正確性、多様性、倫理基準への準拠を保証することが重要です。これがなければ、プロセス全体が価値を失い、現実を歪めるリスクがあります」とデニス・ソロキンは言います。
プロジェクトによっては、参加者の年齢層、性別、国籍、肌の色が異なる必要がある場合があります。場合によっては、感情分析のためにさまざまな表情を持つ医療研究の高齢者や、生体認証システムのための特定の生理学的特徴を持つ人など、特定の特性を持つ参加者が必要になります。
さまざまな地域で適切な参加者を見つけるのは難しい場合があります。さまざまなコミュニティ メンバーで本当に多様なデータセットを作成するために、適切な数の参加者を確保するには、「キャスティング」プロセスに数週間、場合によっては数か月かかることがあります。
高品質のビデオをキャプチャするには、大量のストレージとデータ転送リソースが必要です。たとえば、4K ビデオを 1 時間録画すると、数十ギガバイト必要になります。赤外線やサーマルなどの特殊なカメラでは、さらに多くのデータが生成されます。プロジェクトで複数のカメラを使用する場合、データの総量は数テラバイトにまで増加する可能性があります。ワークフローを整理するには、効率的なデータ転送から注釈付け、クライアントへの配信まで、強力な機器と慎重に計画されたロジスティクスが必要です。
データの作成には、特に人物の画像、生体認証データ、公共の場での行動を含む情報の収集を伴う場合、倫理的および法的懸念がいくつか生じます。倫理的観点から、撮影に参加するすべての人は、必要な書類に署名して、データの使用についてインフォームドコンセントを提供する必要があります。機密性も重要な役割を果たします。クライアントが要求しない限り、人物が特定されないようにし、データ保護基準に準拠する必要があります。もう 1 つの差し迫った問題は、データの操作です。人工的なモデリングや演出されたシーンは、情報の歪みやアルゴリズムによる偏りを防ぐために、現実を厳密に反映する必要があります。
法的な観点から見ると、主な課題は個人データの保護にあります。欧州の GDPR や米国の CCPA などの規制では、参加者がデータの削除を要求する権利を含む、データの収集と処理に関する厳格なガイドラインが設定されています。収集したデータを商業目的で使用することにも制限があり、1 つのプロジェクトで収集した情報は、参加者の同意なしに再販したり、他の調査に使用したりすることはできません。さらに、公共の場での撮影に関する法律は国によって異なります。場所によっては、同意なしに人々を撮影することが許可されています。対照的に、他の場所では、特にデータが商業目的または調査目的で使用される場合は、特定の許可が必要です。倫理基準と法的要件を遵守することは、データ処理の重要な側面であり、リスクを軽減し、情報が適切かつ安全に使用されるようにするのに役立ちます。
デニス・ソロキン氏は、データ作成は、特にパブリックドメインでは見つからない特定のビデオ素材を必要とするプロジェクトでは、依然として非常に需要の高い分野であると考えています。「次世代輸送用に AI をトレーニングする場合でも、店舗での消費者行動を分析する場合でも、医学研究の限界を押し広げる場合でも、重要なのは柔軟性と正確性を維持し、クライアントのニーズに合わせることです」と同氏は言います。課題にもかかわらず、この分野は進化を続け、さまざまな業界で応用され、注目と需要が高まっています。