오늘날 우리는 ChatGPT 와 같은 강력한 AI 모델과 비전 모델 및 기타 유사한 기술 덕분에 엄청난 양의 데이터에 액세스할 수 있습니다. 그러나 이러한 모델이 의존하는 것은 데이터의 양뿐만 아니라 품질에 관한 것입니다. 좋은 데이터 세트를 신속하고 대규모로 생성하는 것은 어렵고 비용이 많이 드는 작업일 수 있습니다.
간단히 말해서, 능동 학습은 데이터 세트의 주석을 최적화하고 최소한의 훈련 데이터를 사용하여 가능한 최상의 모델을 훈련하는 것을 목표로 합니다.
이는 모델의 예측과 데이터 간의 반복 프로세스를 포함하는 지도 학습 접근 방식입니다. 완전한 데이터세트를 기다리는 대신, 주석이 달린 큐레이트된 데이터의 소규모 배치로 시작하여 이를 통해 모델을 훈련할 수 있습니다.
그런 다음 능동 학습을 사용하면 모델을 활용하여 보이지 않는 데이터에 레이블을 지정하고, 예측의 정확성을 평가하고, 획득 기능을 기반으로 주석을 추가할 다음 데이터 세트를 선택할 수 있습니다.
능동 학습의 한 가지 장점은 모델 예측의 신뢰 수준을 분석할 수 있다는 것입니다.
예측의 신뢰도가 낮은 경우 모델은 해당 유형의 추가 이미지에 레이블을 지정하도록 요청합니다. 반면 신뢰도가 높은 예측에는 더 많은 데이터가 필요하지 않습니다. 전체적으로 더 적은 수의 이미지에 주석을 추가하면 최적화된 모델을 달성하는 동시에 시간과 비용을 절약할 수 있습니다. 능동 학습은 대규모 데이터 세트 작업에 매우 유망한 접근 방식입니다.
첫째, 사람이 주석을 추가하여 모델 예측의 품질을 제어할 수 있습니다. 수백만 개의 이미지로 훈련된 블랙박스가 아닙니다. 귀하는 개발에 적극적으로 참여하고 성능 개선을 지원합니다. 이러한 측면은 비지도 접근 방식에 비해 비용이 증가할 수 있음에도 불구하고 능동적 학습을 중요하고 흥미롭게 만듭니다. 그러나 모델을 훈련하고 배포하는 데 절약된 시간이 이러한 비용보다 더 큰 경우가 많습니다.
또한 자동 주석 도구를 사용하고 수동으로 수정하여 비용을 더욱 절감할 수 있습니다.
능동 학습에는 모델이 훈련되는 레이블이 지정된 데이터 세트가 있는 반면, 레이블이 없는 세트에는 아직 주석이 추가되지 않은 잠재적인 데이터가 포함됩니다. 중요한 개념은 레이블을 지정할 데이터를 결정하는 쿼리 전략입니다. 레이블이 지정되지 않은 대규모 데이터 풀에서 가장 유익한 하위 집합을 찾는 데는 다양한 접근 방식이 있습니다. 예를 들어, 불확실성 샘플링에는 레이블이 지정되지 않은 데이터에 대한 모델을 테스트하고 주석에 대한 신뢰도가 가장 낮은 예를 선택하는 작업이 포함됩니다.
능동 학습의 또 다른 기술은 QBC(Query by Committee)입니다 . 여기서는 각각 레이블이 지정된 데이터의 서로 다른 하위 집합에 대해 훈련된 여러 모델이 위원회를 구성합니다. 서로 다른 경험을 가진 사람들이 특정 개념에 대해 다양한 이해를 갖고 있는 것처럼 이러한 모델은 분류 문제에 대해 서로 다른 관점을 가지고 있습니다. 주석을 달 데이터는 위원회 모델 간의 불일치를 기반으로 선택되어 복잡성을 나타냅니다. 선택한 데이터에 지속적으로 주석이 추가되면서 이 반복 프로세스가 계속됩니다.
관심이 있으시면 다른 기계 학습 전략에 대한 추가 정보나 동영상을 제공해 드릴 수 있습니다. 능동적 학습의 실제 사례는 Google에서 보안문자에 답하는 경우입니다. 그렇게 하면 복잡한 이미지를 식별하고 여러 사용자의 집단적 입력을 통해 데이터 세트를 구축하여 데이터 세트 품질과 사람의 검증을 모두 보장할 수 있습니다. 따라서 다음에 보안 문자를 만나면 AI 모델의 발전에 기여하고 있다는 점을 기억하세요!