Metoda konsenzusa igra ključnu ulogu u označavanju podataka kada je potrebno osigurati visoku tačnost i smanjiti subjektivnost u označavanju. Na osnovu Keymakrovog iskustva, implementacija pristupa konsenzusa sa više stručnjaka u određenim slučajevima može smanjiti greške u napomenama za 30–50%. Konsenzus minimizira greške, automatizira kontrolu kvaliteta i pomaže u stvaranju referentnih skupova podataka — posebno kritičnih u oblastima visoke odgovornosti kao što su medicina i autonomna vožnja.
Tatiana Verbitskaya, arhitekt tehničkih rješenja u Keymakru , govori o tome kako ova metoda funkcionira i projektima u kojima je uspješno primijenjena.
Kako radi
Konsenzus se postiže prikupljanjem mišljenja više stručnjaka. Prilikom definisanja podataka „osnovne istine“, od vitalnog je značaja uspostaviti dogovoreni standard tačnosti. Konsenzus je kritičan kada se obučava model na subjektivnim podacima, kao što su boja i oblik, ili kada je potrebna visoka preciznost. Ova metoda se aktivno koristi u ranim fazama kada model još nije obučen na dovoljno podataka ili kada je potrebna dodatna obuka, posebno za specifične slučajeve (npr. subjektivne prosudbe). Osim toga, konsenzus je kritičan u velikim projektima, kao što je označavanje podataka za samovozeće automobile ili praćenje transporta, jer povećava preciznost uz smanjenje grešaka.
Ključni principi konsenzusa:
- Neparan broj stručnjaka: Da bi se izbjegle zastoje, konsenzus se oslanja na neparan broj anotatora, osiguravajući konačan ishod čak i u slučajevima neslaganja.
- Analiza neslaganja: Ova metoda se ne oslanja samo na većinu glasova, već uzima u obzir i učestalost neslaganja. Ako su odstupanja previše značajna, podaci mogu biti označeni za dodatni pregled ili se čak ne koriste za obuku modela.
- Mehanizmi za otkrivanje grešaka: Čak i podaci zasnovani na konsenzusu mogu sadržavati greške ako su slučajevi previše subjektivni i nisu konačni.
Globalni tehnološki lideri kao što su Google, Tesla, Amazon i Meta aktivno koriste bilješke zasnovane na konsenzusu za poboljšanje performansi AI modela. Google Health, na primjer, primjenjuje višestruke napomene radiologa na rendgenske snimke kako bi poboljšao dijagnostičku preciznost. Tesla koristi konsenzus za označavanje podataka sa kamera autopilota, smanjujući greške u obuci u autonomnoj vožnji. Amazon SageMaker Ground Truth uključuje konsenzus napomene u NLP, kompjuterski vid i analizu satelitskih snimaka, dok ga Meta koristi za projekte prepoznavanja lica i objekata.
Medicinski konsenzus: Vijeće za napomene
Jedna od najkritičnijih primjena konsenzusa je zapisivanje medicinskih slika za dijagnozu bolesti. Stručnjaci kažu da dijagnoze radiologa mogu varirati za čak 20-30%, što direktno utiče na ishod pacijenata. Kada se koristi pristup zasnovan na konsenzusu — gde više radiologa nezavisno beleži slike, a njihovi ulazi se agregiraju na osnovu bodovanja ponderisane stručnošću — tačnost napomena može se poboljšati do 40%.
Keymakr aktivno primjenjuje ovaj pristup u složenim medicinskim projektima. Kao rezultat, ovo pomaže da se osigura precizno označavanje slike za AI modele obučene za otkrivanje složenih patologija. Ovdje je proces izgrađen pomoću platforme Keylabs — gdje možete uporediti mišljenja nekoliko stručnjaka, identificirati neslaganja i formirati skupove podataka visoke preciznosti. Ovaj pristup značajno povećava pouzdanost algoritama koji se koriste u automatiziranoj dijagnostici, minimizirajući rizik od pogrešne dijagnoze.
Konsenzus u praćenju korištenja sadržaja autorskih prava
Trenutno, Keymakr sarađuje sa SoundAware , kompanijom koja primenjuje automatizovanu tehnologiju za prepoznavanje muzike za identifikaciju korišćenja muzike zaštićene autorskim pravima. Tim pregleda 10.000 URL-ova kako bi procijenio prisustvo materijala zaštićenog autorskim pravima.
Video platforme su ispunjene sadržajem koji može sadržati autorski materijal, poput muzike, scena iz filmova ili fragmenata TV emisija. Zbog ogromne količine podataka i subjektivne prirode tumačenja autorskih prava, ručna analiza svakog videa je nepraktična.
Međutim, Keymakr identifikuje slučajeve u kojima se sadržaj zaštićen autorskim pravima koristi ili modifikuje na načine na koje automatizovani sistemi još uvek ne mogu pouzdano da otkriju. To uključuje parodije, fan art i hommage.
Kako bi eliminirao subjektivnost, Keymakr koristi pristup zasnovan na konsenzusu: svaki video ocjenjuje više nezavisnih stručnjaka koji odgovaraju na sljedeća pitanja:
- Da li video sadrži muziku zaštićenu autorskim pravima?
- Da li sadrži scene iz filma ili TV emisije?
- Da li je sadržaj izmijenjen, na primjer kroz uređivanje ili remiksovanje?
Na osnovu odgovora stručnjaka donosi se konačna odluka o potencijalnim problemima sa autorskim pravima.
Takvi projekti su od suštinskog značaja za sprovođenje autorskih prava i osiguravanje da nosioci prava dobiju pravičnu naknadu. Osim toga, ovaj proces pomaže kompanijama specijalizovanim za praćenje sadržaja da usavrše svoje algoritme i ubrzaju otkrivanje materijala zaštićenog autorskim pravima.
Konsenzus u praćenju vozila i pješaka
Konsenzus se takođe široko primenjuje u obuci veštačke inteligencije za autonomna vozila, posebno u prepoznavanju objekata na putevima (npr. druga vozila, pešaci, saobraćajni znakovi). Na primjer, kamera može snimiti pješaka u pokretu, a ljudski komentari se mogu ne složiti oko toga da li je objekt osoba ili sjena. Konsenzus osigurava precizno označavanje u takvim scenarijima.
Keymakr tim je nedavno radio na analizi video zapisa snimljenih kamerama kako bi pratio vozila. Bilo je potrebno pratiti kretanje vozila kroz nekoliko kamera na raskrsnici i osigurati da sistem ispravno identifikuje isto vozilo u različitim kadrovima.
Kamere su snimile jedan objekat (auto) na nekoliko tačaka. Nekoliko stručnjaka je pogledalo video sa različitih kamera. Procijenili su da li je ovaj predmet isti automobil jer bi mogle postojati razlike u percepciji izgleda (na primjer, prema boji ili marki). Informacije su korištene za obuku modela ako je pet anotatora potvrdilo identitet objekta. Inače bi takvi podaci bili isključeni iz skupa podataka. Time je smanjen broj lažnih alarma i povećana tačnost sistema za prepoznavanje automobila, što je važno za urbane sigurnosne sisteme i sisteme automatske kontrole saobraćaja.
Isti pristup se može primijeniti za identifikaciju ljudi u trgovačkim centrima ili na ulicama. Kamere bilježe kretanje analizirajući, na primjer, boju odjeće, visinu ili druge karakteristike. Ova metoda se koristi za:
- Poboljšani sigurnosni nadzor
- Prevencija kriminala
- Analiza ponašanja maloprodajnih posjetitelja
- Procjena gužve na javnim površinama
Budućnost konsenzusa u AI
Budućnost konsenzus-based anotacije podataka obećava, posebno kako AI modeli postaju složeniji i obim podataka raste. Predviđa se da će globalno tržište napomena i označavanja podataka dostići 3,6 milijardi dolara do 2027. godine, a mnoge kompanije usvajaju višeslojnu verifikaciju napomena kako bi poboljšale kvalitet podataka. Studije pokazuju da modeli obučeni na skupovima podataka sa konsenzusnim napomenama pokazuju znatno veću tačnost od modela obučenih na označavanju iz jednog izvora.
Uprkos razvoju automatskog označavanja i generativne veštačke inteligencije, ljudski faktor ostaje ključan: subjektivnost i neslaganja u napomenama zahtevaju višestepenu validaciju. Stoga će se metoda konsenzusa i dalje koristiti, osiguravajući pouzdanost podataka i smanjujući greške u kritičnim područjima kao što su autonomni sistemi, medicina i finansijska analiza.