Znate li kako nastaju veliki blockbusteri? Proces uključuje pažljivo odabrane lokacije, profesionalnu opremu, glumce, snimatelje, stručnjake za rasvjetu i cijelu ekipu koja precizno rekreira svaku scenu. U svijetu umjetne inteligencije stvaranje podataka funkcionira na isti način. Oslikava ovaj kinematografski proces, ali umjesto da zabavi publiku, cilj je proizvesti "kadrove" potrebne za učinkovito učenje algoritama.
Prema Cognilytici , 80% razvoja umjetne inteligencije nije stvarna obuka, već priprema podataka — stvaranje, prikupljanje, bilješke i obrada. U jednoj od ovih faza, kada podaci iz stvarnog svijeta nisu dovoljni, uskoči stvaranje podataka. Što je "scena" realističnija i raznolikija, to AI postaje pametnija.
Keymakrov voditelj upravljanja projektima, Dennis Sorokin, dijeli uvide u važnost, proces, izazove i stvarne primjene stvaranja podataka.
Stvaranje podataka je proces generiranja prilagođenih slikovnih i video skupova podataka prilagođenih specifičnim potrebama projekta. Ti bi skupovi podataka trebali točno odražavati scenarije iz stvarnog svijeta. Stvaranje podataka postaje sve popularnije zbog sve većih zahtjeva za kvalitetom i količinom podataka, posebno u automobilskoj industriji, medicini, sigurnosnim sustavima, sportu i maloprodaji. Tvrtke ulažu u stvaranje podataka kako bi poboljšale točnost i izvedbu modela.
Stvaranje podataka obično se koristi kada su podaci iz stvarnog svijeta nedostupni ili nedostatni. Ovaj proces može uključivati:
Povećanje postojećih skupova podataka: Promjena uvjeta, dodavanje objekata ili povećanje varijabilnosti. Tvrtke mogu kupiti postojeće skupove podataka i dati ih komentirati specijaliziranim tvrtkama.
Generiranje sintetičkih podataka: korištenje softverskih alata za stvaranje slika, tekstova ili videa za obuku modela. Na primjer, softver može generirati slike ili videozapise na temelju zadanog scenarija. Međutim, sintetički podaci imaju ograničenja: generiraju se na temelju unaprijed definiranih parametara i nedostaje im prirodna varijabilnost stvarnih podataka. Kao što Dennis Sorokin objašnjava: "U stvarnim zadacima, posebno kada je potrebna točnost iznad 99%, sintetički podaci ne pružaju potrebnu kvalitetu. Sustav sa stopom pogreške čak od 0,1% mogao bi pogrešno identificirati stotine ljudi u zračnoj luci ili izazvati opasne situacije na cesti. Zato su prilagođeni scenariji ključni."
Stvaranje podataka za rubne slučajeve: Snimanje slika i videa u jedinstvenim scenarijima za pouzdanost modela. Za složene zadatke bitni su pravi podaci. Na primjer, da bi se osposobio model da prepozna vozača u nesvijesti, potrebno je najmanje 1000 videozapisa s različitim ljudima koji simuliraju ovo stanje. Sudionici dobivaju jednostavne upute poput "pretvarajte se da gubite svijest" bez navođenja kako. Jedna osoba može klonuti glavom, druga zatvoriti oči, a treća se nagnuti u stranu. Ova prirodna varijabilnost čini stvarne podatke nevjerojatno vrijednima, značajno poboljšavajući točnost uvježbavanja modela.
Keymakrov portfelj uključuje brojna snimanja za različite projekte, svaki s jedinstvenim zahtjevima — od opreme i kamera do glumaca i lokacija diljem Europe, Amerike i Kanade. “Razumijevanje svih projektnih nijansi ključno je za isporuku jedinstvenih rješenja. Ovaj proces doista nalikuje režiranju holivudskog filma i vrlo je zanimljiv. Svaki scenarij je rješiv sve dok je u skladu s etičkim, moralnim i pravnim standardima”, kaže Sorokin.
Projekti u kabini
Jedan primjer su projekti usmjereni na otkrivanje ometanja vozača. Keymakr je razvio niz scenarija za simulaciju uobičajenih ponašanja koja odvlače pažnju, kao što su:
Ovi su scenariji modelirani u kontroliranim uvjetima s desecima sudionika. Za jedan projekt, više od 5000 kratkih videozapisa od 1-5 minuta uhvatilo je sudionike kako izvode razne ometajuće aktivnosti. To je omogućilo sustavu prepoznavanje obrazaca ponašanja i primjerenu reakciju na neobične situacije.
Prepoznavanje oružanog napada
Stvaranje podataka često se koristi za AI modele usmjerene na sigurnost ureda. Jedan nedavni projekt uključivao je scenarije koji simuliraju:
Uvježbavanje modela zahtijevalo je više od 3000 videozapisa koji prikazuju različite kombinacije agresivnog ponašanja, grupnih pokreta i rukovanja predmetima.
Sigurnosni projekti
Keymakr je radio na projektima sigurnosnih kamera u zračnim lukama koje su namijenjene zamjeni graničara. Kamere su bile potrebne za:
Projekt je zahtijevao:
Kritični aspekt bilo je prikupljanje podataka iz određenih demografskih skupina, poput Afroamerikanaca starijih od 50 godina ili pojedinaca iz Južne Azije. Takvi posebni podaci nisu javno dostupni, što naglašava potrebu za prilagođenim stvaranjem podataka.
Keymakr također stvara podatke za medicinske projekte i sustave virtualnih fitness instruktora. Dok se potonji tek pojavljuje, potražnja raste, osobito s porastom vježbanja na daljinu i rehabilitacije.
Slično Xbox Kinectu, ovi sustavi koriste senzore za praćenje kretanja korisnika u stvarnom vremenu. Moderna tehnologija omogućuje ne samo praćenje pokreta, već i detaljnu analizu izvođenja vježbe. Za rehabilitaciju su presudni precizni pokreti, poput posezanja vrhom prsta do ramena pod određenim kutom. Sustav daje povratne informacije, ispravlja držanje, ističe pogreške i predlaže prilagodbe.
Za jedan projekt Keymak je opsežno snimao treninge, uključujući vježbe poput iskoraka, skokova i podizanja nogu. Oko 60 sudionika izvodilo je vježbe po 15 minuta, uz kontinuirano snimanje kako bi se prikupili podaci za točnu zabilježbu kretanja. Snimanja su bila fizički zahtjevna, čak i za mlađe sudionike, zbog repetitivnih aktivnosti visokog intenziteta.
Medicinske studije: Reakcija zjenice na svjetlo
Za projekt tvrtke za biometriju, Keymakr je uhvatio podatke o reakcijama zjenica na svjetlosne podražaje pomoću specijalizirane opreme koja podsjeća na dalekozor. Cilj je bio analizirati vrijeme reakcije učenika na promjenjive svjetlosne uvjete.
Sudjelovalo je oko 200 sudionika. Bili su detaljno obaviješteni kako bi se osigurala sigurnost postupka.
Eksperiment je uključivao:
Stvaranje kvalitetnih podataka proces je u više koraka koji uključuje pažljivo planiranje, prikupljanje, obradu i isporuku. Ovisno o zadatku, ovaj proces može značajno varirati.
Ključne faze uključuju:
Medicinska istraživanja koriste specijalizirane senzore
Analiza kretanja koristi postavke s više kamera
Kamere u automobilu snimaju ponašanje vozača/putnika
Prije snimanja provjerava se oprema, testiraju scenariji i informiraju sudionici. Posebna se pažnja posvećuje stvaranju podataka u uvjetima koji blisko oponašaju operacije u stvarnom svijetu. Na primjer, u projektima analize umora vozača simuliraju se uvjeti dugih putovanja, dok se u studijama bolesti kretanja bilježe promjene stanja putnika pod različitim uvjetima kretanja.
Za označavanje se koriste ručne metode i automatizirani alati. Ponekad klijenti zahtijevaju specifične pojedinosti, kao što je praćenje mikropokreta očiju u medicinskim istraživanjima ili analiza stotina parametara ponašanja vozača.
Također se razmatraju pitanja vezana uz pohranu i prijenos podataka. Na primjer, volumen 4K videa iz nekoliko sati snimanja može doseći nekoliko terabajta, što zahtijeva posebne poslužitelje ili rješenja u oblaku.
Prilikom izrade podataka bitno je uzeti u obzir ne samo tehnička ograničenja, već i pravne i etičke aspekte rada s podacima.
"U svijetu podataka, gdje je svaki detalj bitan, nije dovoljno samo stvoriti podatke; ključno je osigurati njihovu točnost, raznolikost i usklađenost s etičkim standardima. Bez toga, cijeli proces gubi svoju vrijednost i postoji rizik od iskrivljavanja stvarnosti", kaže Dennis Sorokin.
Ovisno o projektu, sudionici će možda morati dolaziti iz različitih dobnih skupina, spolova, nacionalnosti i tonova kože. U nekim su slučajevima potrebni sudionici s određenim karakteristikama — poput starijih osoba za medicinske studije s različitim izrazima lica za analizu emocija ili osoba s posebnim fiziološkim osobinama za biometrijske sustave.
Pronalaženje odgovarajućih sudionika u različitim regijama može biti izazovno. Ponekad proces 'kastiranja' može potrajati tjednima ili čak mjesecima kako bi se osigurao pravi broj sudionika za stvaranje zaista različitih skupova podataka s različitim članovima zajednice.
Snimanje video zapisa visoke kvalitete zahtijeva značajne resurse za pohranu i prijenos podataka. Na primjer, snimanje 4K videa u trajanju od jednog sata može zauzeti nekoliko desetaka gigabajta. Posebne kamere poput infracrvene, termalne itd. mogu proizvesti još više podataka. Ako se u projektu koristi više kamera, ukupna količina podataka može se povećati na nekoliko terabajta. Organiziranje tijeka rada zahtijeva moćnu opremu i pažljivo planiranu logistiku, od učinkovitog prijenosa podataka do označavanja i isporuke klijentima.
Stvaranje podataka izaziva nekoliko etičkih i pravnih pitanja, osobito kada uključuje prikupljanje informacija koje sadrže slike ljudi, biometrijske podatke ili radnje na javnim mjestima. Iz etičke perspektive, svi sudionici snimanja moraju dati informirani pristanak za korištenje svojih podataka potpisivanjem potrebnih dokumenata. Povjerljivost također igra ključnu ulogu; potrebno je osigurati da se osobe ne mogu identificirati kada klijent to ne zahtijeva i pridržavati se standarda zaštite podataka. Drugi gorući problem je manipulacija podacima - umjetno modeliranje ili inscenirane scene moraju pobliže odražavati stvarnost kako bi se spriječilo iskrivljenje informacija i algoritamska pristranost.
S pravnog stajališta, primarni izazov leži u zaštiti osobnih podataka. Propisi kao što su GDPR u Europi i CCPA u SAD-u postavljaju stroge smjernice za prikupljanje i obradu podataka, uključujući prava sudionika da zatraže uklanjanje svojih podataka. Postoje i ograničenja u korištenju prikupljenih podataka u komercijalne svrhe: podaci prikupljeni za jedan projekt ne mogu se uvijek preprodati ili koristiti u drugim istraživanjima bez pristanka sudionika. Nadalje, zakoni o javnom snimanju razlikuju se od zemlje do zemlje — neka mjesta dopuštaju snimanje ljudi bez njihovog pristanka. Nasuprot tome, drugi zahtijevaju posebna dopuštenja, osobito kada se podaci koriste u komercijalne ili istraživačke svrhe. Pridržavanje etičkih standarda i zakonskih zahtjeva ključni je aspekt rukovanja podacima, pomaže u smanjenju rizika i osigurava da se informacije koriste na odgovarajući i siguran način.
Dennis Sorokin vjeruje da je stvaranje podataka i dalje vrlo traženo područje, posebice u projektima koji zahtijevaju specifične video materijale koji se ne mogu naći u javnoj domeni. “Bilo da obučavate AI za prijevoz sljedeće generacije, analizirate ponašanje potrošača u trgovinama ili pomičete granice medicinskog istraživanja, ključ je ostati fleksibilan, precizan i usklađen s onim što klijenti trebaju”, kaže. Unatoč izazovima, ovo područje nastavlja se razvijati, pronalazeći primjene u raznim industrijama i dobivajući sve veću pozornost i potražnju.