paint-brush
De kunst van datacreatie: achter de schermen van AI-trainingdoor@keymakr
Nieuwe geschiedenis

De kunst van datacreatie: achter de schermen van AI-training

door Keymakr8m2025/02/18
Read on Terminal Reader

Te lang; Lezen

Data Creation is het proces van het genereren van aangepaste beeld- en videodatasets die zijn afgestemd op specifieke projectbehoeften. Data Creation wordt steeds populairder vanwege de toenemende vraag naar datakwaliteit en -volume. Bedrijven investeren in data creation om de nauwkeurigheid en prestaties van het model te verbeteren.
featured image - De kunst van datacreatie: achter de schermen van AI-training
Keymakr HackerNoon profile picture

Weet je hoe grootschalige blockbusters worden gemaakt? Het proces omvat zorgvuldig geselecteerde locaties, professionele apparatuur, acteurs, cameramensen, lichtspecialisten en een hele crew om elke scène nauwkeurig te recreëren. In de wereld van AI werkt datacreatie op dezelfde manier. Het weerspiegelt dit filmische proces, maar in plaats van het vermaken van het publiek, is het doel om de "frames" te produceren die nodig zijn om algoritmen effectief te laten leren.


Volgens Cognilytica draait 80% van de AI-ontwikkeling niet om de daadwerkelijke training, maar om datavoorbereiding: creëren, verzamelen, annoteren en verwerken. In een van deze fasen, wanneer real-world data onvoldoende is, komt datacreatie in beeld. Hoe realistischer en diverser de "scene", hoe slimmer de AI wordt.


Dennis Sorokin, hoofd projectmanagement bij Keymakr , deelt zijn inzichten in het belang, het proces, de uitdagingen en de praktische toepassingen van datacreatie.

Wat is datacreatie?

Data Creation is het proces van het genereren van aangepaste beeld- en videodatasets die zijn afgestemd op specifieke projectbehoeften. Deze datasets moeten nauwkeurig real-world scenario's weerspiegelen. Data Creation wordt steeds populairder vanwege de toenemende vraag naar datakwaliteit en -volume, met name in de automobielindustrie, geneeskunde, beveiligingssystemen, sport en detailhandel. Bedrijven investeren in data creation om de nauwkeurigheid en prestaties van modellen te verbeteren.



Data Creation wordt doorgaans gebruikt wanneer real-world data niet beschikbaar of onvoldoende is. Dit proces kan het volgende omvatten:


  • Bestaande datasets uitbreiden: Voorwaarden aanpassen, objecten toevoegen of de variabiliteit vergroten. Bedrijven kunnen bestaande datasets kopen en deze laten annoteren door gespecialiseerde bedrijven.


  • Synthetische datageneratie: Softwaretools gebruiken om afbeeldingen, teksten of video's te maken voor modeltraining. Software kan bijvoorbeeld afbeeldingen of video's genereren op basis van een bepaald scenario. Synthetische data heeft echter beperkingen: het wordt gegenereerd op basis van vooraf gedefinieerde parameters en mist de natuurlijke variabiliteit van echte data. Zoals Dennis Sorokin uitlegt: "Bij taken in de echte wereld, vooral wanneer een nauwkeurigheid van meer dan 99% vereist is, leveren synthetische data niet de benodigde kwaliteit. Een systeem met zelfs een foutpercentage van 0,1% kan honderden mensen op een luchthaven verkeerd identificeren of gevaarlijke situaties op de weg veroorzaken. Daarom zijn aangepaste scenario's cruciaal."


  • Gegevens maken voor Edge Cases: afbeeldingen en video's vastleggen in unieke scenario's voor modelbetrouwbaarheid. Voor complexe taken zijn echte gegevens essentieel. Om bijvoorbeeld een model te trainen om bewusteloosheid van de bestuurder te herkennen, zijn er ten minste 1.000 video's met verschillende mensen die deze toestand simuleren vereist. Deelnemers krijgen eenvoudige instructies zoals 'doe alsof je het bewustzijn verliest', zonder te specificeren hoe. De ene persoon kan zijn hoofd laten hangen, een ander kan zijn ogen sluiten en weer een ander kan opzij leunen. Deze natuurlijke variabiliteit maakt echte gegevens ongelooflijk waardevol, wat de nauwkeurigheid van de modeltraining aanzienlijk verbetert.

Gebruiksscenario's voor het maken van gegevens

Keymakr's portfolio omvat talloze opnames voor uiteenlopende projecten, elk met unieke vereisten — van apparatuur en camera's tot acteurs en locaties in Europa, Amerika en Canada. "Het begrijpen van alle projectnuances is essentieel om unieke oplossingen te leveren. Dit proces lijkt echt op het regisseren van een Hollywoodfilm en is zeer boeiend. Elk scenario is oplosbaar zolang het aansluit bij ethische, morele en juridische normen," zegt Sorokin.


In-Cabin-projecten

Een voorbeeld zijn projecten die gericht zijn op het detecteren van afleiding van bestuurders. Keymakr heeft een reeks scenario's ontwikkeld om veelvoorkomend afleidingsgedrag te simuleren, zoals:


  • Mobiele telefoons gebruiken tijdens het rijden
  • Vaak in de achteruitkijkspiegel kijken in plaats van je op de weg te concentreren
  • Sigaretten aansteken of aanstekers gebruiken
  • Drinken uit flessen of via een rietje
  • Het dragen van hoeden die hun gezicht bedekken, waardoor het voor modellen moeilijk is om hen te identificeren


Deze scenario's werden gemodelleerd onder gecontroleerde omstandigheden met tientallen deelnemers. Voor één project legden meer dan 5.000 korte video's van 1-5 minuten deelnemers vast die verschillende afleidende activiteiten uitvoerden. Hierdoor kon het systeem gedragspatronen herkennen en op de juiste manier reageren op ongebruikelijke situaties.



Herkenning van gewapende aanvallen

Datacreatie wordt vaak gebruikt voor AI-modellen gericht op kantoorbeveiliging. Een recent project omvatte scenario's die het volgende simuleerden:

  • Het verschijnen van een gewapende persoon die gijzelaars bedreigt
  • De overdracht van wapens tussen individuen
  • Schietincidenten en gewonde slachtoffers


Om het model te trainen waren meer dan 3.000 video's nodig waarin verschillende combinaties van agressief gedrag, groepsbewegingen en het hanteren van voorwerpen werden getoond.


Beveiligingsprojecten

Keymakr werkte aan projecten voor beveiligingscamera's op luchthavens die grenswachten moesten vervangen. De camera's moesten:

  • Gezichten herkennen en matchen met paspoortgegevens
  • Toegangspoorten automatisch bedienen


Het project vereiste:

  • Gegevens van 5.000 personen met diverse etnische achtergronden
  • Ongeveer 1.000 scenario's onder verschillende omstandigheden (weinig licht, blootstelling aan direct licht, slecht weer)
  • Scenario's waarbij deelnemers hun gezicht met hun handen bedekten, een bril, een hoed of een capuchon droegen


Een kritisch aspect was het verzamelen van data van specifieke demografieën, zoals Afro-Amerikanen van boven de 50 of Zuid-Aziatische personen. Zulke nichedata is niet openbaar beschikbaar, wat de noodzaak van aangepaste Data Creation onderstreept.

Medische gegevens en virtuele fitnessinstructeurs

Keymakr creëert ook data voor medische projecten en virtuele fitnessinstructeurssystemen. Hoewel dat laatste nog in opkomst is, groeit de vraag, vooral met de opkomst van trainingen en revalidatie op afstand.


Vergelijkbaar met Xbox Kinect gebruiken deze systemen sensoren om bewegingen van gebruikers in realtime te volgen. Moderne technologie maakt niet alleen bewegingsregistratie mogelijk, maar ook gedetailleerde analyse van de uitvoering van oefeningen. Voor revalidatie zijn precieze bewegingen cruciaal, zoals het bereiken van een vingertop naar de schouder in een specifieke hoek. Het systeem geeft feedback, corrigeert houding, markeert fouten en suggereert aanpassingen.


Voor één project filmde Keymak r uitgebreid trainingssessies, met oefeningen als lunges, jumps en leg raises. Ongeveer 60 deelnemers voerden oefeningen uit gedurende 15 minuten per keer, met continue opname om gegevens te verzamelen voor nauwkeurige bewegingsannotatie. De opnames waren fysiek veeleisend, zelfs voor jongere deelnemers, vanwege de repetitieve, intensieve activiteiten.


Medische studies: reactie van pupillen op licht

Voor een project van een biometriebedrijf heeft Keymakr gegevens vastgelegd over pupilreacties op lichtstimuli met behulp van gespecialiseerde apparatuur die lijkt op verrekijkers. Het doel was om de reactietijden van pupillen op veranderende lichtomstandigheden te analyseren.


Er deden ongeveer 200 deelnemers mee. Ze werden grondig gebriefd om de veiligheid van de procedure te garanderen.


Het experiment omvatte:

  • Het licht uitdoen
  • Wacht 30 seconden
  • Geleidelijk toenemend licht Analyse van pupilreacties
  • Het onderzoek leverde waardevolle gegevens op over de dynamiek van oogreacties, wat helpt bij het diagnosticeren van neurologische en oculaire aandoeningen.


Het proces van gegevenscreatie

Het creëren van kwaliteitsdata is een proces met meerdere stappen, waarbij zorgvuldige planning, verzameling, verwerking en levering een rol spelen. Afhankelijk van de taak kan dit proces aanzienlijk variëren.


Belangrijke fasen zijn:


  1. Doelstellingen definiëren: Modelvereisten, scenario's en verwachte uitkomsten verduidelijken. De scope van het werk omvat:
  • Vereiste gegevenstypen Opnameomstandigheden (belichting, omgeving, hoeken)
  • Demografie van de deelnemers (leeftijd, geslacht, etniciteit)
  • Apparatuur (camera's, sensoren, apparaten)
  • Annotatiemethoden


  1. Organiseren en uitvoeren van opnamen: het proces is afhankelijk van het gegevenstype:
  • Medisch onderzoek maakt gebruik van gespecialiseerde sensoren

  • Bewegingsanalyse maakt gebruik van opstellingen met meerdere camera's

  • Camera's in de auto leggen het gedrag van de bestuurder/passagier vast


Voor het schieten wordt de apparatuur gecontroleerd, worden scenario's getest en worden deelnemers geïnformeerd. Er wordt speciale aandacht besteed aan het creëren van data in omstandigheden die de echte wereld nauwgezet nabootsen. Bijvoorbeeld, in projecten voor vermoeidheidsanalyse van bestuurders worden omstandigheden van lange ritten gesimuleerd, terwijl in studies naar bewegingsziekte veranderingen in de passagiersstatus worden vastgelegd onder verschillende bewegingsomstandigheden.


  1. Gegevensverwerking en annotatie: Na de opname:
  • Filter en selecteer relevante beelden
  • Pas de beeldkwaliteit aan (kleur, belichting, scherpte)
  • Noteer belangrijke punten (ogen, lippen, handen, lichaamshouding)
  • Classificeer acties (hoofd draaien, knipperen, telefoon gebruiken)


Zowel handmatige methoden als geautomatiseerde tools worden gebruikt voor annotatie. Soms vereisen cliënten specifieke details, zoals het volgen van micro-oogbewegingen in medisch onderzoek of het analyseren van honderden parameters van bestuurdersgedrag.


  1. Gegevenslevering: De definitieve datasets worden gestructureerd voor gebruik door de klant, inclusief:
  • Geannoteerde video's
  • Gelabelde afbeeldingen
  • Parametertabellen met bewegingskarakteristieken


Er wordt ook gekeken naar kwesties met betrekking tot gegevensopslag en -overdracht. Zo kan het volume van 4K-video van meerdere uren filmen meerdere terabytes bedragen, waarvoor speciale servers of cloudoplossingen nodig zijn.

Uitdagingen bij het creëren van gegevens

Bij het creëren van data is het van essentieel belang om niet alleen rekening te houden met de technische beperkingen, maar ook met de juridische en ethische aspecten van het werken met data.


"In de wereld van data, waar elk detail ertoe doet, is het niet genoeg om alleen data te creëren; het is cruciaal om de nauwkeurigheid, diversiteit en naleving van ethische normen te garanderen. Zonder dit verliest het hele proces zijn waarde en bestaat het risico dat de realiteit wordt vervormd," zegt Dennis Sorokin.


  • Diversiteit van deelnemers

Afhankelijk van het project moeten deelnemers mogelijk uit verschillende leeftijdsgroepen, geslachten, nationaliteiten en huidtinten komen. In sommige gevallen zijn deelnemers met specifieke kenmerken vereist, zoals oudere personen voor medische studies met verschillende gezichtsuitdrukkingen voor emotieanalyse of personen met bepaalde fysiologische kenmerken voor biometrische systemen.


Het vinden van geschikte deelnemers in verschillende regio's kan een uitdaging zijn. Soms kan het 'casting'-proces weken of zelfs maanden duren om de juiste hoeveelheid deelnemers te garanderen om echt gevarieerde datasets met verschillende communityleden te creëren.


  • Datavolume en technische beperkingen

Het vastleggen van video van hoge kwaliteit vereist aanzienlijke opslag- en gegevensoverdrachtsbronnen. Bijvoorbeeld, het opnemen van 4K-video gedurende één uur kan tientallen gigabytes in beslag nemen. Speciale camera's zoals infrarood, thermisch, etc. kunnen nog meer gegevens produceren. Als er meerdere camera's in het project worden gebruikt, kan het totale gegevensvolume toenemen tot meerdere terabytes. Het organiseren van de workflow vereist krachtige apparatuur en zorgvuldig geplande logistiek, van efficiënte gegevensoverdracht tot annotatie en levering aan klanten.


  • Ethische en juridische uitdagingen

Het creëren van data roept verschillende ethische en juridische zorgen op, vooral wanneer het gaat om het verzamelen van informatie met afbeeldingen van mensen, biometrische gegevens of acties op openbare plaatsen. Vanuit een ethisch perspectief moeten alle deelnemers aan de opnames geïnformeerde toestemming geven voor het gebruik van hun data door de benodigde documenten te ondertekenen. Vertrouwelijkheid speelt ook een cruciale rol; het is noodzakelijk om ervoor te zorgen dat mensen niet kunnen worden geïdentificeerd wanneer de klant dit niet vereist en om te voldoen aan de normen voor gegevensbescherming. Een ander dringend probleem is datamanipulatie: kunstmatige modellering of geënsceneerde scènes moeten de realiteit nauwkeurig weerspiegelen om informatievervorming en algoritmische vertekening te voorkomen.



Vanuit juridisch oogpunt ligt de grootste uitdaging in het beschermen van persoonsgegevens. Regelgeving zoals de AVG in Europa en CCPA in de VS stellen strikte richtlijnen voor het verzamelen en verwerken van gegevens, waaronder het recht van deelnemers om verwijdering van hun gegevens aan te vragen. Er zijn ook beperkingen op het gebruik van verzamelde gegevens voor commerciële doeleinden: informatie die voor één project is verzameld, kan niet altijd worden doorverkocht of gebruikt in ander onderzoek zonder toestemming van de deelnemers. Bovendien verschillen de wetten rond openbare filmopnames van land tot land: op sommige plaatsen is het toegestaan om mensen te filmen zonder hun toestemming. Daarentegen vereisen andere specifieke toestemmingen, vooral wanneer de gegevens worden gebruikt voor commerciële of onderzoeksdoeleinden. Het naleven van ethische normen en wettelijke vereisten is een belangrijk aspect van gegevensverwerking, wat helpt om risico's te beperken en ervoor zorgt dat informatie op de juiste manier en veilig wordt gebruikt.

Conclusies

Dennis Sorokin gelooft dat datacreatie een zeer gewild vakgebied blijft, met name in projecten die specifiek videomateriaal vereisen dat niet in het publieke domein te vinden is. "Of je nu AI traint voor next-gen transport, consumentengedrag in winkels analyseert of de grenzen van medisch onderzoek verlegt, de sleutel is om flexibel, nauwkeurig en afgestemd te blijven op wat klanten nodig hebben", zegt hij. Ondanks de uitdagingen blijft dit vakgebied evolueren, vindt het toepassingen in verschillende sectoren en krijgt het steeds meer aandacht en vraag.