Czy wiesz, jak powstają wielkie przeboje? Proces ten obejmuje starannie wybrane lokalizacje, profesjonalny sprzęt, aktorów, operatorów kamer, specjalistów od oświetlenia i całą ekipę, aby precyzyjnie odtworzyć każdą scenę. W świecie AI tworzenie danych działa w ten sam sposób. Odzwierciedla ten proces filmowy, ale zamiast bawić publiczność, celem jest wyprodukowanie „klatek” wymaganych do efektywnego uczenia się algorytmów.
Według Cognilytica 80% rozwoju AI nie dotyczy faktycznego szkolenia, ale przygotowania danych — tworzenia, gromadzenia, adnotacji i przetwarzania. Na jednym z tych etapów, gdy dane ze świata rzeczywistego są niewystarczające, wkracza tworzenie danych. Im bardziej realistyczna i różnorodna jest „scena”, tym inteligentniejsza staje się AI.
Dennis Sorokin, dyrektor ds. zarządzania projektami w Keymakr , dzieli się swoimi spostrzeżeniami na temat znaczenia, procesów, wyzwań i zastosowań tworzenia danych w świecie rzeczywistym.
Tworzenie danych to proces generowania niestandardowych zestawów danych obrazów i wideo dostosowanych do konkretnych potrzeb projektu. Te zestawy danych powinny dokładnie odzwierciedlać rzeczywiste scenariusze. Tworzenie danych staje się coraz bardziej popularne ze względu na rosnące zapotrzebowanie na jakość i objętość danych, szczególnie w motoryzacji, medycynie, systemach bezpieczeństwa, sporcie i handlu detalicznym. Firmy inwestują w tworzenie danych, aby poprawić dokładność i wydajność modelu.
Tworzenie danych jest zazwyczaj używane, gdy dane ze świata rzeczywistego są niedostępne lub niewystarczające. Proces ten może obejmować:
Rozszerzanie istniejących zestawów danych: Modyfikowanie warunków, dodawanie obiektów lub zwiększanie zmienności. Firmy mogą kupować istniejące zestawy danych i zlecać ich adnotację wyspecjalizowanym firmom.
Generowanie syntetycznych danych: Używanie narzędzi programowych do tworzenia obrazów, tekstów lub filmów wideo do szkolenia modeli. Na przykład oprogramowanie może generować obrazy lub filmy wideo na podstawie danego scenariusza. Jednak syntetyczne dane mają ograniczenia: są generowane na podstawie wstępnie zdefiniowanych parametrów i brakuje im naturalnej zmienności rzeczywistych danych. Jak wyjaśnia Dennis Sorokin, „W zadaniach w świecie rzeczywistym, zwłaszcza gdy wymagana jest dokładność powyżej 99%, syntetyczne dane nie zapewniają wymaganej jakości. System o współczynniku błędu nawet 0,1% może błędnie zidentyfikować setki osób na lotnisku lub spowodować niebezpieczne sytuacje na drodze. Dlatego niestandardowe scenariusze są kluczowe”.
Tworzenie danych dla przypadków skrajnych: rejestrowanie obrazów i filmów w unikalnych scenariuszach w celu zapewnienia niezawodności modelu. W przypadku złożonych zadań niezbędne są prawdziwe dane. Na przykład, aby wytrenować model rozpoznawania nieprzytomności kierowcy, potrzebnych jest co najmniej 1000 filmów z różnymi osobami symulującymi ten stan. Uczestnikom podaje się proste instrukcje, takie jak „udawaj, że tracisz przytomność”, bez określania, w jaki sposób. Jedna osoba może pochylić głowę, inna może zamknąć oczy, a jeszcze inna może przechylić się na bok. Ta naturalna zmienność sprawia, że prawdziwe dane są niezwykle cenne, znacznie poprawiając dokładność szkolenia modelu.
Portfolio Keymakr obejmuje liczne zdjęcia do różnych projektów, z których każdy ma wyjątkowe wymagania — od sprzętu i kamer po aktorów i lokalizacje w Europie, Ameryce i Kanadzie. „Zrozumienie wszystkich niuansów projektu jest niezbędne do dostarczania unikalnych rozwiązań. Ten proces naprawdę przypomina reżyserowanie filmu hollywoodzkiego i jest bardzo angażujący. Każdy scenariusz jest możliwy do rozwiązania, o ile jest zgodny z normami etycznymi, moralnymi i prawnymi” — mówi Sorokin.
Projekty w kabinie
Jednym z przykładów są projekty skupiające się na wykrywaniu rozproszenia uwagi kierowców. Keymakr opracował szereg scenariuszy symulujących typowe zachowania rozpraszające uwagę, takie jak:
Te scenariusze zostały zmodelowane w kontrolowanych warunkach z udziałem dziesiątek uczestników. W przypadku jednego projektu ponad 5000 krótkich filmów trwających 1–5 minut uchwyciło uczestników wykonujących różne rozpraszające czynności. Umożliwiło to systemowi rozpoznawanie wzorców zachowań i odpowiednią reakcję na nietypowe sytuacje.
Rozpoznawanie ataków zbrojnych
Tworzenie danych jest często wykorzystywane w modelach AI skoncentrowanych na bezpieczeństwie biurowym. Jeden z ostatnich projektów obejmował scenariusze symulujące:
Do wytrenowania modelu potrzebnych było ponad 3000 filmów prezentujących różne kombinacje zachowań agresywnych, ruchów grupowych i posługiwania się przedmiotami.
Projekty bezpieczeństwa
Keymakr pracował nad projektami kamer bezpieczeństwa lotniskowego, które miały zastąpić strażników granicznych. Kamery musiały:
Projekt wymagał:
Krytycznym aspektem było zebranie danych od konkretnych grup demograficznych, takich jak Afroamerykanie powyżej 50. roku życia lub osoby z Azji Południowej. Takie niszowe dane nie są publicznie dostępne, co podkreśla potrzebę tworzenia niestandardowych danych.
Keymakr tworzy również dane dla projektów medycznych i systemów wirtualnych instruktorów fitness. Podczas gdy te ostatnie wciąż się rozwijają, popyt rośnie, szczególnie wraz ze wzrostem liczby zdalnych treningów i rehabilitacji.
Podobnie jak Xbox Kinect, systemy te wykorzystują czujniki do śledzenia ruchów użytkownika w czasie rzeczywistym. Nowoczesna technologia umożliwia nie tylko śledzenie ruchu, ale także szczegółową analizę wykonywania ćwiczeń. W rehabilitacji kluczowe są precyzyjne ruchy, takie jak sięganie koniuszkiem palca do ramienia pod określonym kątem. System zapewnia informacje zwrotne, koryguje postawę, podświetla błędy i sugeruje korekty.
W ramach jednego projektu Keymak r intensywnie filmował sesje treningowe, w tym ćwiczenia takie jak wypady, skoki i unoszenie nóg. Około 60 uczestników wykonywało ćwiczenia przez 15 minut każde, z ciągłym nagrywaniem w celu zebrania danych do dokładnej adnotacji ruchu. Zdjęcia były wymagające fizycznie, nawet dla młodszych uczestników, ze względu na powtarzające się, intensywne czynności.
Studia medyczne: reakcja źrenic na światło
W ramach projektu firmy biometrycznej Keymakr zebrał dane dotyczące reakcji źrenic na bodźce świetlne za pomocą specjalistycznego sprzętu przypominającego lornetkę. Celem była analiza czasu reakcji źrenic na zmieniające się warunki oświetleniowe.
Wzięło w nim udział około 200 uczestników. Zostali oni dokładnie poinformowani, aby zapewnić bezpieczeństwo procedury.
Eksperyment obejmował:
Tworzenie wysokiej jakości danych to wieloetapowy proces obejmujący staranne planowanie, gromadzenie, przetwarzanie i dostarczanie. W zależności od zadania proces ten może się znacznie różnić.
Kluczowe etapy obejmują:
Badania medyczne wykorzystują specjalistyczne czujniki
Analiza ruchu wykorzystuje konfiguracje wielokamerowe
Kamery samochodowe rejestrują zachowanie kierowcy/pasażera
Przed rozpoczęciem zdjęć sprawdzany jest sprzęt, testowane są scenariusze, a uczestnicy otrzymują instruktaż. Szczególną uwagę zwraca się na tworzenie danych w warunkach, które ściśle odzwierciedlają rzeczywiste operacje. Na przykład w projektach analizy zmęczenia kierowców symulowane są warunki długich podróży, podczas gdy w badaniach nad chorobą lokomocyjną rejestrowane są zmiany stanu pasażerów w różnych warunkach ruchu.
Do adnotacji stosuje się zarówno metody ręczne, jak i narzędzia automatyczne. Czasami klienci wymagają konkretnych szczegółów, takich jak śledzenie mikroruchów oczu w badaniach medycznych lub analizowanie setek parametrów zachowań kierowców.
Rozważane są również kwestie związane z przechowywaniem i przesyłaniem danych. Na przykład objętość wideo 4K z kilku godzin filmowania może osiągnąć kilka terabajtów, co wymaga specjalnych serwerów lub rozwiązań chmurowych.
Tworząc dane, należy brać pod uwagę nie tylko ograniczenia techniczne, ale także aspekty prawne i etyczne związane z pracą z danymi.
„W świecie danych, w którym każdy szczegół ma znaczenie, nie wystarczy samo tworzenie danych; kluczowe jest zapewnienie ich dokładności, różnorodności i zgodności ze standardami etycznymi. Bez tego cały proces traci swoją wartość i ryzykuje zniekształceniem rzeczywistości” – mówi Dennis Sorokin.
W zależności od projektu uczestnicy mogą musieć pochodzić z różnych grup wiekowych, płci, narodowości i odcieni skóry. W niektórych przypadkach wymagani są uczestnicy o określonych cechach — na przykład osoby starsze w przypadku studiów medycznych z różnymi wyrazami twarzy do analizy emocji lub osoby o określonych cechach fizjologicznych w przypadku systemów biometrycznych.
Znalezienie odpowiednich uczestników w różnych regionach może być trudne. Czasami proces „castingu” może trwać tygodnie, a nawet miesiące, aby zapewnić odpowiednią liczbę uczestników do tworzenia naprawdę zróżnicowanych zestawów danych z różnymi członkami społeczności.
Rejestrowanie wysokiej jakości wideo wymaga znacznych zasobów pamięci masowej i transferu danych. Na przykład nagrywanie wideo 4K przez godzinę może zająć kilkadziesiąt gigabajtów. Specjalne kamery, takie jak podczerwień, termowizyjne itp., mogą wygenerować jeszcze więcej danych. Jeśli w projekcie używa się wielu kamer, całkowita objętość danych może wzrosnąć do kilku terabajtów. Organizacja przepływu pracy wymaga wydajnego sprzętu i starannie zaplanowanej logistyki, od wydajnego transferu danych po adnotacje i dostarczanie do klientów.
Tworzenie danych budzi wiele obaw natury etycznej i prawnej, zwłaszcza gdy wiąże się ze zbieraniem informacji zawierających wizerunki ludzi, dane biometryczne lub działania w miejscach publicznych. Z perspektywy etycznej wszyscy uczestnicy filmowania muszą wyrazić świadomą zgodę na wykorzystanie swoich danych, podpisując niezbędne dokumenty. Poufność odgrywa również kluczową rolę; konieczne jest zapewnienie, że osoby nie zostaną zidentyfikowane, gdy klient tego nie wymaga, oraz przestrzeganie standardów ochrony danych. Innym pilnym problemem jest manipulacja danymi — sztuczne modelowanie lub inscenizowane sceny muszą ściśle odzwierciedlać rzeczywistość, aby zapobiec zniekształceniu informacji i stronniczości algorytmicznej.
Z prawnego punktu widzenia, głównym wyzwaniem jest ochrona danych osobowych. Przepisy takie jak GDPR w Europie i CCPA w USA ustanawiają ścisłe wytyczne dotyczące gromadzenia i przetwarzania danych, w tym prawa uczestników do żądania usunięcia swoich danych. Istnieją również ograniczenia dotyczące wykorzystywania zebranych danych do celów komercyjnych: informacje zebrane na potrzeby jednego projektu nie zawsze mogą być odsprzedawane lub wykorzystywane w innych badaniach bez zgody uczestników. Ponadto przepisy dotyczące filmowania publicznego różnią się w zależności od kraju — niektóre miejsca zezwalają na filmowanie ludzi bez ich zgody. Z kolei inne wymagają określonych zezwoleń, zwłaszcza gdy dane są wykorzystywane do celów komercyjnych lub badawczych. Przestrzeganie norm etycznych i wymogów prawnych jest kluczowym aspektem przetwarzania danych, pomagającym łagodzić ryzyko i zapewniającym, że informacje są wykorzystywane właściwie i bezpiecznie.
Dennis Sorokin uważa, że tworzenie danych pozostaje bardzo poszukiwaną dziedziną, szczególnie w projektach wymagających określonych materiałów wideo, których nie można znaleźć w domenie publicznej. „Niezależnie od tego, czy szkolisz sztuczną inteligencję do transportu nowej generacji, analizujesz zachowania konsumentów w sklepach, czy przesuwasz granice badań medycznych, kluczem jest zachowanie elastyczności, precyzji i dostosowanie do potrzeb klientów” — mówi. Pomimo wyzwań ta dziedzina nadal się rozwija, znajdując zastosowania w różnych branżach i zyskując coraz większą uwagę i popyt.