649 lasījumi
649 lasījumi

Jūsu mākslīgais intelekts ir tikpat gudrs kā tā dati — un cilvēki joprojām ir vislabākie to marķēšanā

autors Keymakr5m2025/03/24
Read on Terminal Reader

Pārāk ilgi; Lasīt

Vienprātība tiek panākta, apkopojot vairāku ekspertu viedokļus. Google, Tesla, Amazon un Meta aktīvi izmanto uz vienprātību balstītas anotācijas, lai uzlabotu AI veiktspēju. Google Health izmanto vienprātību, lai uzlabotu diagnostikas precizitāti. Tesla izmanto vienprātību, lai marķētu datus no autopilota kamerām.
featured image - Jūsu mākslīgais intelekts ir tikpat gudrs kā tā dati — un cilvēki joprojām ir vislabākie to marķēšanā
Keymakr HackerNoon profile picture

Konsensa metodei ir galvenā loma datu anotācijā, ja nepieciešams nodrošināt augstu precizitāti un samazināt subjektivitāti marķēšanā. Pamatojoties uz Keymakr pieredzi, konsensa pieeju ar vairākiem ekspertiem konkrētos gadījumos var samazināt par 30–50%. Vienprātība samazina kļūdas, automatizē kvalitātes kontroli un palīdz izveidot etalonu datu kopas — īpaši svarīgas augstas atbildības jomās, piemēram, medicīnā un autonomā braukšanā.


Tatjana Verbitskaja, Keymakr tehnisko risinājumu arhitekte, stāsta par šīs metodes darbību un projektiem, kuros tā ir veiksmīgi pielietota.

Kā tas darbojas

Vienprātība tiek panākta, apkopojot vairāku ekspertu viedokļus. Definējot “pamatpatiesības” datus, ir svarīgi noteikt saskaņotu precizitātes standartu. Vienprātība ir ļoti svarīga, apmācot modeli par subjektīviem datiem, piemēram, krāsu un formu, vai ja nepieciešama augsta precizitāte. Šo metodi aktīvi izmanto sākumposmā, kad modelis vēl nav apmācīts uz pietiekamiem datiem vai kad ir nepieciešama papildu apmācība, it īpaši īpašos gadījumos (piemēram, subjektīvi spriedumi). Turklāt vienprātība ir ļoti svarīga liela mēroga projektos, piemēram, anotējot datus par pašbraucošām automašīnām vai pārraugot transportu, jo tas uzlabo precizitāti, vienlaikus samazinot kļūdu skaitu.


Galvenie vienprātības principi:

  • Nepāra ekspertu skaits: lai izvairītos no strupceļa, vienprātība balstās uz nepāra skaitu anotatoru, nodrošinot galīgo iznākumu pat domstarpību gadījumā.
  • Nesaskaņu analīze: šī metode ne tikai balstās uz vairākuma balsojumu, bet arī ņem vērā domstarpību biežumu. Ja neatbilstības ir pārāk nozīmīgas, dati var tikt atzīmēti papildu pārskatīšanai vai pat netiek izmantoti modeļa apmācībai.
  • Kļūdu noteikšanas mehānismi: pat uz vienprātību balstītos datos var būt kļūdas, ja gadījumi ir pārāk subjektīvi un nav galīgi.


Globālie tehnoloģiju līderi, piemēram, Google, Tesla, Amazon un Meta, aktīvi izmanto uz vienprātību balstītas anotācijas, lai uzlabotu AI modeļa veiktspēju. Piemēram, Google Health izmanto vairākas radiologa anotācijas rentgena stariem, lai uzlabotu diagnostikas precizitāti. Tesla izmanto vienprātību, lai marķētu datus no autopilota kamerām, samazinot apmācības kļūdas autonomajā braukšanā. Amazon SageMaker Ground Truth ietver konsensa anotāciju NLP, datorredzes un satelītattēlu analīzē, savukārt Meta izmanto to sejas un objektu atpazīšanas projektos.


Izveidojiet pielāgotu datu marķēšanas darbplūsmu, izmantojot Amazon SageMaker Ground Truth/https://aws.amazon.com/blogs/machine-learning/build-a-custom-data-labeling-workflow-with-amazon-sagemaker-ground-truth/



Medicīnas vienprātība: anotāciju padome

Viens no vissvarīgākajiem vienprātības pielietojumiem ir medicīniskā attēla anotācija slimību diagnosticēšanai. Eksperti saka, ka radiologu diagnozes var atšķirties pat par 20–30%, tieši ietekmējot pacienta rezultātus. Ja tiek izmantota uz vienprātību balstīta pieeja — kad vairāki radiologi neatkarīgi komentē attēlus un viņu ievade tiek apkopota, pamatojoties uz ekspertīzi svērto punktu skaitu, anotācijas precizitāti var uzlabot līdz pat 40%.


Keymakr aktīvi izmanto šo pieeju sarežģītos medicīnas projektos. Rezultātā tas palīdz nodrošināt precīzu attēlu marķēšanu AI modeļiem, kas apmācīti atklāt sarežģītas patoloģijas. Šeit process tika izveidots, izmantojot Keylabs platformu, kurā varat salīdzināt vairāku ekspertu viedokļus, noteikt neatbilstības un veidot augstas precizitātes datu kopas. Šī pieeja ievērojami palielina automatizētajā diagnostikā izmantoto algoritmu uzticamību, samazinot nepareizas diagnostikas risku.



Vienprātība autortiesību satura lietošanas uzraudzībā

Pašlaik Keymakr sadarbojas ar SoundAware — uzņēmumu, kas izvieto automatizētu mūzikas atpazīšanas tehnoloģiju, lai identificētu ar autortiesībām aizsargātas mūzikas lietojumu. Komanda pārskata 10 000 URL, lai novērtētu ar autortiesībām aizsargāta materiāla klātbūtni.


Video platformas ir piepildītas ar saturu, kas var saturēt autora materiālu, piemēram, mūziku, filmu ainas vai TV šovu fragmentus. Milzīgā datu apjoma un autortiesību interpretācijas subjektīvā rakstura dēļ katra videoklipa manuāla analīze ir nepraktiska.

Tomēr Keymakr identificē gadījumus, kad ar autortiesībām aizsargāts saturs tiek izmantots vai pārveidots tā, ka automatizētās sistēmas vēl nevar droši noteikt. Tie ietver parodijas, fanu mākslu un cieņu.


Lai novērstu subjektivitāti, Keymakr izmanto uz vienprātību balstītu pieeju: katru video novērtē vairāki neatkarīgi eksperti, kas atbild uz šādiem jautājumiem:

  • Vai videoklipā ir ietverta ar autortiesībām aizsargāta mūzika?
  • Vai tajā ir ainas no filmas vai TV šova?
  • Vai saturs ir mainīts, piemēram, rediģējot vai remiksējot?

Pamatojoties uz ekspertu atbildēm, tiek pieņemts galīgais lēmums par iespējamām autortiesību problēmām.

Šādi projekti ir būtiski, lai īstenotu autortiesības un nodrošinātu, ka tiesību īpašnieki saņem taisnīgu atlīdzību. Turklāt šis process palīdz uzņēmumiem, kas specializējas satura uzraudzībā, pilnveidot savus algoritmus un paātrināt ar autortiesībām aizsargāta materiāla noteikšanu.

Vienprātība transportlīdzekļu un gājēju izsekošanas jomā

Vienprātība tiek plaši izmantota arī AI apmācībā autonomiem transportlīdzekļiem, jo īpaši objektu atpazīšanā uz ceļiem (piemēram, citi transportlīdzekļi, gājēji, ceļa zīmes). Piemēram, kamera var fiksēt kustībā esošu gājēju, un cilvēku komentētāji var nepiekrist, vai objekts ir cilvēks vai ēna. Konsenss nodrošina precīzu marķēšanu šādos scenārijos.


Keymakr komanda nesen strādāja ar kamerās ierakstītā video analīzi, lai izsekotu transportlīdzekļus. Bija nepieciešams izsekot transportlīdzekļa kustībai caur vairākām kamerām krustojumā un nodrošināt, lai sistēma pareizi identificētu vienu un to pašu transportlīdzekli dažādos kadros.

Kameras fiksēja vienu objektu (auto) vairākos punktos. Vairāki eksperti skatījās video no dažādām kamerām. Viņi novērtēja, vai šis objekts ir viena un tā pati automašīna, jo var būt atšķirības izskata uztverē (piemēram, pēc krāsas vai zīmola). Informācija tika izmantota, lai apmācītu modeli, ja pieci anotatori apstiprināja objekta identitāti. Pretējā gadījumā šādi dati tiktu izslēgti no datu kopas. Tas ir samazinājis viltus trauksmes signālu skaitu un palielinājis automašīnu atpazīšanas sistēmu precizitāti, kas ir svarīgi pilsētas drošības sistēmām un automātiskajām satiksmes kontroles sistēmām.



To pašu pieeju var izmantot, lai identificētu cilvēkus iepirkšanās centros vai ielās. Kameras fiksē kustību, analizējot, piemēram, apģērba krāsu, augumu vai citas īpašības. Šo metodi izmanto, lai:

  • Uzlabota drošības uzraudzība
  • Noziedzības novēršana
  • Mazumtirdzniecības apmeklētāju uzvedības analīze
  • Pūļa plūsmas novērtējums sabiedriskās vietās

Vienprātības nākotne AI

Uz vienprātību balstītas datu anotācijas nākotne ir daudzsološa, jo īpaši tāpēc, ka AI modeļi kļūst sarežģītāki un datu apjoms pieaug. Tiek prognozēts, ka globālais datu anotācijas un marķēšanas tirgus līdz 2027. gadam sasniegs 3,6 miljardus ASV dolāru, un daudzi uzņēmumi izmanto daudzslāņu anotāciju verifikāciju, lai uzlabotu datu kvalitāti. Pētījumi liecina, ka modeļi, kas apmācīti datu kopās ar vienprātīgu anotāciju, uzrāda ievērojami augstāku precizitāti nekā modeļi, kas apmācīti, izmantojot viena avota marķēšanu.


Neskatoties uz automātiskās anotācijas un ģeneratīvās AI attīstību, cilvēka faktors joprojām ir galvenais: subjektivitātes un anotācijas domstarpības prasa daudzpakāpju validāciju. Tāpēc arī turpmāk tiks izmantota vienprātības metode, nodrošinot datu ticamību un samazinot kļūdas tādās kritiskās jomās kā autonomās sistēmas, medicīna un finanšu analīze.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks