paint-brush
Umjetnost stvaranja podataka: iza kulisa AI obukepo@keymakr
Nova povijest

Umjetnost stvaranja podataka: iza kulisa AI obuke

po Keymakr8m2025/02/18
Read on Terminal Reader

Predugo; Čitati

Stvaranje podataka je proces generiranja prilagođenih slikovnih i video skupova podataka prilagođenih specifičnim potrebama projekta. Stvaranje podataka postaje sve popularnije zbog sve većih zahtjeva za kvalitetom i količinom podataka. Tvrtke ulažu u stvaranje podataka kako bi poboljšale točnost i izvedbu modela.
featured image - Umjetnost stvaranja podataka: iza kulisa AI obuke
Keymakr HackerNoon profile picture

Znate li kako nastaju veliki blockbusteri? Proces uključuje pažljivo odabrane lokacije, profesionalnu opremu, glumce, snimatelje, stručnjake za rasvjetu i cijelu ekipu koja precizno rekreira svaku scenu. U svijetu umjetne inteligencije stvaranje podataka funkcionira na isti način. Oslikava ovaj kinematografski proces, ali umjesto da zabavi publiku, cilj je proizvesti "kadrove" potrebne za učinkovito učenje algoritama.


Prema Cognilytici , 80% razvoja umjetne inteligencije nije stvarna obuka, već priprema podataka — stvaranje, prikupljanje, bilješke i obrada. U jednoj od ovih faza, kada podaci iz stvarnog svijeta nisu dovoljni, uskoči stvaranje podataka. Što je "scena" realističnija i raznolikija, to AI postaje pametnija.


Keymakrov voditelj upravljanja projektima, Dennis Sorokin, dijeli uvide u važnost, proces, izazove i stvarne primjene stvaranja podataka.

Što je stvaranje podataka?

Stvaranje podataka je proces generiranja prilagođenih slikovnih i video skupova podataka prilagođenih specifičnim potrebama projekta. Ti bi skupovi podataka trebali točno odražavati scenarije iz stvarnog svijeta. Stvaranje podataka postaje sve popularnije zbog sve većih zahtjeva za kvalitetom i količinom podataka, posebno u automobilskoj industriji, medicini, sigurnosnim sustavima, sportu i maloprodaji. Tvrtke ulažu u stvaranje podataka kako bi poboljšale točnost i izvedbu modela.



Stvaranje podataka obično se koristi kada su podaci iz stvarnog svijeta nedostupni ili nedostatni. Ovaj proces može uključivati:


  • Povećanje postojećih skupova podataka: Promjena uvjeta, dodavanje objekata ili povećanje varijabilnosti. Tvrtke mogu kupiti postojeće skupove podataka i dati ih komentirati specijaliziranim tvrtkama.


  • Generiranje sintetičkih podataka: korištenje softverskih alata za stvaranje slika, tekstova ili videa za obuku modela. Na primjer, softver može generirati slike ili videozapise na temelju zadanog scenarija. Međutim, sintetički podaci imaju ograničenja: generiraju se na temelju unaprijed definiranih parametara i nedostaje im prirodna varijabilnost stvarnih podataka. Kao što Dennis Sorokin objašnjava: "U stvarnim zadacima, posebno kada je potrebna točnost iznad 99%, sintetički podaci ne pružaju potrebnu kvalitetu. Sustav sa stopom pogreške čak od 0,1% mogao bi pogrešno identificirati stotine ljudi u zračnoj luci ili izazvati opasne situacije na cesti. Zato su prilagođeni scenariji ključni."


  • Stvaranje podataka za rubne slučajeve: Snimanje slika i videa u jedinstvenim scenarijima za pouzdanost modela. Za složene zadatke bitni su pravi podaci. Na primjer, da bi se osposobio model da prepozna vozača u nesvijesti, potrebno je najmanje 1000 videozapisa s različitim ljudima koji simuliraju ovo stanje. Sudionici dobivaju jednostavne upute poput "pretvarajte se da gubite svijest" bez navođenja kako. Jedna osoba može klonuti glavom, druga zatvoriti oči, a treća se nagnuti u stranu. Ova prirodna varijabilnost čini stvarne podatke nevjerojatno vrijednima, značajno poboljšavajući točnost uvježbavanja modela.

Slučajevi korištenja za stvaranje podataka

Keymakrov portfelj uključuje brojna snimanja za različite projekte, svaki s jedinstvenim zahtjevima — od opreme i kamera do glumaca i lokacija diljem Europe, Amerike i Kanade. “Razumijevanje svih projektnih nijansi ključno je za isporuku jedinstvenih rješenja. Ovaj proces doista nalikuje režiranju holivudskog filma i vrlo je zanimljiv. Svaki scenarij je rješiv sve dok je u skladu s etičkim, moralnim i pravnim standardima”, kaže Sorokin.


Projekti u kabini

Jedan primjer su projekti usmjereni na otkrivanje ometanja vozača. Keymakr je razvio niz scenarija za simulaciju uobičajenih ponašanja koja odvlače pažnju, kao što su:


  • Korištenje mobitela tijekom vožnje
  • Često provjeravanje retrovizora umjesto fokusiranja na cestu
  • Paljenje cigareta ili korištenje upaljača
  • Pije se iz boca ili na slamku
  • Nose šešire koji zaklanjaju njihova lica, što otežava modelima da ih identificiraju


Ovi su scenariji modelirani u kontroliranim uvjetima s desecima sudionika. Za jedan projekt, više od 5000 kratkih videozapisa od 1-5 minuta uhvatilo je sudionike kako izvode razne ometajuće aktivnosti. To je omogućilo sustavu prepoznavanje obrazaca ponašanja i primjerenu reakciju na neobične situacije.



Prepoznavanje oružanog napada

Stvaranje podataka često se koristi za AI modele usmjerene na sigurnost ureda. Jedan nedavni projekt uključivao je scenarije koji simuliraju:

  • Pojava naoružane osobe koja prijeti taocima
  • Prijenos oružja između pojedinaca
  • Incidenti pucnjave i ozlijeđene žrtve


Uvježbavanje modela zahtijevalo je više od 3000 videozapisa koji prikazuju različite kombinacije agresivnog ponašanja, grupnih pokreta i rukovanja predmetima.


Sigurnosni projekti

Keymakr je radio na projektima sigurnosnih kamera u zračnim lukama koje su namijenjene zamjeni graničara. Kamere su bile potrebne za:

  • Prepoznaj lica i spoji ih s podacima iz putovnice
  • Automatski kontrolirajte pristupna vrata


Projekt je zahtijevao:

  • Podaci od 5000 pojedinaca različitog etničkog podrijetla
  • Oko 1000 scenarija pod različitim uvjetima (slabo osvjetljenje, izravna izloženost svjetlu, loše vrijeme)
  • Scenariji u kojima su sudionici pokrivali lice rukama, nosili naočale, šešire ili kapuljače


Kritični aspekt bilo je prikupljanje podataka iz određenih demografskih skupina, poput Afroamerikanaca starijih od 50 godina ili pojedinaca iz Južne Azije. Takvi posebni podaci nisu javno dostupni, što naglašava potrebu za prilagođenim stvaranjem podataka.

Medicinski podaci i virtualni instruktori fitnessa

Keymakr također stvara podatke za medicinske projekte i sustave virtualnih fitness instruktora. Dok se potonji tek pojavljuje, potražnja raste, osobito s porastom vježbanja na daljinu i rehabilitacije.


Slično Xbox Kinectu, ovi sustavi koriste senzore za praćenje kretanja korisnika u stvarnom vremenu. Moderna tehnologija omogućuje ne samo praćenje pokreta, već i detaljnu analizu izvođenja vježbe. Za rehabilitaciju su presudni precizni pokreti, poput posezanja vrhom prsta do ramena pod određenim kutom. Sustav daje povratne informacije, ispravlja držanje, ističe pogreške i predlaže prilagodbe.


Za jedan projekt Keymak je opsežno snimao treninge, uključujući vježbe poput iskoraka, skokova i podizanja nogu. Oko 60 sudionika izvodilo je vježbe po 15 minuta, uz kontinuirano snimanje kako bi se prikupili podaci za točnu zabilježbu kretanja. Snimanja su bila fizički zahtjevna, čak i za mlađe sudionike, zbog repetitivnih aktivnosti visokog intenziteta.


Medicinske studije: Reakcija zjenice na svjetlo

Za projekt tvrtke za biometriju, Keymakr je uhvatio podatke o reakcijama zjenica na svjetlosne podražaje pomoću specijalizirane opreme koja podsjeća na dalekozor. Cilj je bio analizirati vrijeme reakcije učenika na promjenjive svjetlosne uvjete.


Sudjelovalo je oko 200 sudionika. Bili su detaljno obaviješteni kako bi se osigurala sigurnost postupka.


Eksperiment je uključivao:

  • Gašenje svjetla
  • Čekanje 30 sekundi
  • Postupno pojačavanje svjetla Analizirajući reakcije zjenica
  • Studija je pružila vrijedne podatke o dinamici odgovora oka, pomažući u dijagnosticiranju neuroloških i očnih stanja.


Proces stvaranja podataka

Stvaranje kvalitetnih podataka proces je u više koraka koji uključuje pažljivo planiranje, prikupljanje, obradu i isporuku. Ovisno o zadatku, ovaj proces može značajno varirati.


Ključne faze uključuju:


  1. Definiranje ciljeva: Pojašnjavanje zahtjeva modela, scenarija i očekivanih ishoda. Opseg rada uključuje:
  • Potrebne vrste podataka Uvjeti snimanja (osvjetljenje, okruženje, kutovi)
  • Demografija sudionika (dob, spol, etnička pripadnost)
  • Oprema (kamere, senzori, uređaji)
  • Metode anotiranja


  1. Organiziranje i provođenje snimanja: Proces ovisi o vrsti podataka:
  • Medicinska istraživanja koriste specijalizirane senzore

  • Analiza kretanja koristi postavke s više kamera

  • Kamere u automobilu snimaju ponašanje vozača/putnika


Prije snimanja provjerava se oprema, testiraju scenariji i informiraju sudionici. Posebna se pažnja posvećuje stvaranju podataka u uvjetima koji blisko oponašaju operacije u stvarnom svijetu. Na primjer, u projektima analize umora vozača simuliraju se uvjeti dugih putovanja, dok se u studijama bolesti kretanja bilježe promjene stanja putnika pod različitim uvjetima kretanja.


  1. Obrada podataka i bilješke: Nakon snimanja:
  • Filtrirajte i odaberite relevantne snimke
  • Podešavanje kvalitete slike (boja, osvjetljenje, oštrina)
  • Označite ključne točke (oči, usne, ruke, držanje tijela)
  • Klasificiraj radnje (okretanje glave, treptanje, korištenje telefona)


Za označavanje se koriste ručne metode i automatizirani alati. Ponekad klijenti zahtijevaju specifične pojedinosti, kao što je praćenje mikropokreta očiju u medicinskim istraživanjima ili analiza stotina parametara ponašanja vozača.


  1. Isporuka podataka: Konačni skupovi podataka strukturirani su za korištenje klijenta, uključujući:
  • Videozapisi s komentarima
  • Označene slike
  • Tablice parametara s karakteristikama gibanja


Također se razmatraju pitanja vezana uz pohranu i prijenos podataka. Na primjer, volumen 4K videa iz nekoliko sati snimanja može doseći nekoliko terabajta, što zahtijeva posebne poslužitelje ili rješenja u oblaku.

Izazovi u stvaranju podataka

Prilikom izrade podataka bitno je uzeti u obzir ne samo tehnička ograničenja, već i pravne i etičke aspekte rada s podacima.


"U svijetu podataka, gdje je svaki detalj bitan, nije dovoljno samo stvoriti podatke; ključno je osigurati njihovu točnost, raznolikost i usklađenost s etičkim standardima. Bez toga, cijeli proces gubi svoju vrijednost i postoji rizik od iskrivljavanja stvarnosti", kaže Dennis Sorokin.


  • Raznolikost sudionika

Ovisno o projektu, sudionici će možda morati dolaziti iz različitih dobnih skupina, spolova, nacionalnosti i tonova kože. U nekim su slučajevima potrebni sudionici s određenim karakteristikama — poput starijih osoba za medicinske studije s različitim izrazima lica za analizu emocija ili osoba s posebnim fiziološkim osobinama za biometrijske sustave.


Pronalaženje odgovarajućih sudionika u različitim regijama može biti izazovno. Ponekad proces 'kastiranja' može potrajati tjednima ili čak mjesecima kako bi se osigurao pravi broj sudionika za stvaranje zaista različitih skupova podataka s različitim članovima zajednice.


  • Količina podataka i tehnička ograničenja

Snimanje video zapisa visoke kvalitete zahtijeva značajne resurse za pohranu i prijenos podataka. Na primjer, snimanje 4K videa u trajanju od jednog sata može zauzeti nekoliko desetaka gigabajta. Posebne kamere poput infracrvene, termalne itd. mogu proizvesti još više podataka. Ako se u projektu koristi više kamera, ukupna količina podataka može se povećati na nekoliko terabajta. Organiziranje tijeka rada zahtijeva moćnu opremu i pažljivo planiranu logistiku, od učinkovitog prijenosa podataka do označavanja i isporuke klijentima.


  • Etički i pravni izazovi

Stvaranje podataka izaziva nekoliko etičkih i pravnih pitanja, osobito kada uključuje prikupljanje informacija koje sadrže slike ljudi, biometrijske podatke ili radnje na javnim mjestima. Iz etičke perspektive, svi sudionici snimanja moraju dati informirani pristanak za korištenje svojih podataka potpisivanjem potrebnih dokumenata. Povjerljivost također igra ključnu ulogu; potrebno je osigurati da se osobe ne mogu identificirati kada klijent to ne zahtijeva i pridržavati se standarda zaštite podataka. Drugi gorući problem je manipulacija podacima - umjetno modeliranje ili inscenirane scene moraju pobliže odražavati stvarnost kako bi se spriječilo iskrivljenje informacija i algoritamska pristranost.



S pravnog stajališta, primarni izazov leži u zaštiti osobnih podataka. Propisi kao što su GDPR u Europi i CCPA u SAD-u postavljaju stroge smjernice za prikupljanje i obradu podataka, uključujući prava sudionika da zatraže uklanjanje svojih podataka. Postoje i ograničenja u korištenju prikupljenih podataka u komercijalne svrhe: podaci prikupljeni za jedan projekt ne mogu se uvijek preprodati ili koristiti u drugim istraživanjima bez pristanka sudionika. Nadalje, zakoni o javnom snimanju razlikuju se od zemlje do zemlje — neka mjesta dopuštaju snimanje ljudi bez njihovog pristanka. Nasuprot tome, drugi zahtijevaju posebna dopuštenja, osobito kada se podaci koriste u komercijalne ili istraživačke svrhe. Pridržavanje etičkih standarda i zakonskih zahtjeva ključni je aspekt rukovanja podacima, pomaže u smanjenju rizika i osigurava da se informacije koriste na odgovarajući i siguran način.

Zaključci

Dennis Sorokin vjeruje da je stvaranje podataka i dalje vrlo traženo područje, posebice u projektima koji zahtijevaju specifične video materijale koji se ne mogu naći u javnoj domeni. “Bilo da obučavate AI za prijevoz sljedeće generacije, analizirate ponašanje potrošača u trgovinama ili pomičete granice medicinskog istraživanja, ključ je ostati fleksibilan, precizan i usklađen s onim što klijenti trebaju”, kaže. Unatoč izazovima, ovo područje nastavlja se razvijati, pronalazeći primjene u raznim industrijama i dobivajući sve veću pozornost i potražnju.