paint-brush
Məlumat yaratma sənəti: AI təliminin pərdəarxasıtərəfindən@keymakr
Yeni tarix

Məlumat yaratma sənəti: AI təliminin pərdəarxası

tərəfindən Keymakr8m2025/02/18
Read on Terminal Reader

Çox uzun; Oxumaq

Məlumatların yaradılması xüsusi layihə ehtiyaclarına uyğunlaşdırılmış xüsusi şəkil və video verilənlər bazalarının yaradılması prosesidir. Məlumatların yaradılması, verilənlərin keyfiyyətinə və həcminə artan tələblər səbəbindən getdikcə populyarlaşır. Şirkətlər model dəqiqliyini və performansını yaxşılaşdırmaq üçün məlumatların yaradılmasına sərmayə qoyurlar.
featured image - Məlumat yaratma sənəti: AI təliminin pərdəarxası
Keymakr HackerNoon profile picture

Böyük miqyaslı blokbasterlərin necə hazırlandığını bilirsinizmi? Prosesə diqqətlə seçilmiş məkanlar, peşəkar avadanlıqlar, aktyorlar, kamera operatorları, işıqlandırma mütəxəssisləri və hər bir səhnəni dəqiqliklə yenidən yaratmaq üçün bütöv bir ekipaj daxildir. AI dünyasında məlumatların yaradılması eyni şəkildə işləyir. O, bu kino prosesini əks etdirir, lakin tamaşaçıları əyləndirmək əvəzinə, məqsəd alqoritmlərin effektiv şəkildə öyrənilməsi üçün tələb olunan “çərçivələri” istehsal etməkdir.


Cognilytica- ya görə, AI inkişafının 80% -i faktiki təlim deyil, məlumatların hazırlanması - yaratmaq, toplamaq, annotasiya etmək və emal etməkdir. Bu mərhələlərdən birində, real dünya məlumatları kifayət etmədikdə, məlumatların yaradılması işə başlayır. “Səhnə” nə qədər realist və müxtəlifdirsə, süni intellekt bir o qədər ağıllı olur.


Keymakr-ın Layihə İdarəetmə Departamentinin rəhbəri Dennis Sorokin Məlumatların yaradılmasının əhəmiyyəti, prosesi, çətinlikləri və real dünya tətbiqləri ilə bağlı fikirləri bölüşür.

Məlumatların yaradılması nədir?

Məlumatların yaradılması xüsusi layihə ehtiyaclarına uyğunlaşdırılmış xüsusi şəkil və video verilənlər bazalarının yaradılması prosesidir. Bu məlumat dəstləri real dünya ssenarilərini dəqiq əks etdirməlidir. Xüsusilə avtomobil, tibb, təhlükəsizlik sistemləri, idman və pərakəndə satışda məlumatların keyfiyyətinə və həcminə artan tələblər səbəbindən Data Yaradılması getdikcə populyarlaşır. Şirkətlər model dəqiqliyini və performansını yaxşılaşdırmaq üçün məlumatların yaradılmasına sərmayə qoyurlar.



Data Yaradılması adətən real dünya məlumatları mövcud olmadıqda və ya qeyri-kafi olduqda istifadə olunur. Bu prosesə aşağıdakılar daxil ola bilər:


  • Mövcud verilənlər toplusunun artırılması: Şərtlərin dəyişdirilməsi, obyektlərin əlavə edilməsi və ya dəyişkənliyin artırılması. Şirkətlər mövcud məlumat dəstlərini satın ala və onlara ixtisaslaşmış şirkətlər tərəfindən şərh verə bilərlər.


  • Sintetik məlumatların yaradılması: Model təlimi üçün şəkillər, mətnlər və ya videolar yaratmaq üçün proqram vasitələrindən istifadə. Məsələn, proqram müəyyən bir ssenari əsasında şəkillər və ya videolar yarada bilər. Bununla belə, sintetik məlumatların məhdudiyyətləri var: onlar əvvəlcədən müəyyən edilmiş parametrlər əsasında yaradılır və real məlumatların təbii dəyişkənliyi yoxdur. Dennis Sorokinin izah etdiyi kimi, "Real işlərdə, xüsusən də 99%-dən yuxarı dəqiqlik tələb olunduqda, sintetik məlumatlar lazımi keyfiyyəti təmin etmir. Hətta 0,1% səhv nisbətinə malik bir sistem hava limanında yüzlərlə insanı yanlış tanıya və ya yolda təhlükəli vəziyyətlərə səbəb ola bilər. Buna görə də xüsusi ssenarilər çox vacibdir."


  • Edge Cases üçün məlumatların yaradılması: Modelin etibarlılığı üçün unikal ssenarilərdə şəkillər və videoların çəkilməsi. Mürəkkəb tapşırıqlar üçün real məlumatlar vacibdir. Məsələn, sürücünün huşsuzluğunu tanımaq üçün bir modeli öyrətmək üçün bu vəziyyəti simulyasiya edən müxtəlif insanların olduğu ən azı 1000 video tələb olunur. İştirakçılara necə olacağı göstərilmədən “huşunu itirmiş kimi davranmaq” kimi sadə göstərişlər verilir. Biri başını aşağı sala bilər, digəri gözlərini bağlaya bilər, digəri isə yana əyilə bilər. Bu təbii dəyişkənlik real məlumatları inanılmaz dərəcədə dəyərli edir, model təliminin dəqiqliyini əhəmiyyətli dərəcədə artırır.

Məlumatların yaradılması üçün istifadə halları

Keymakr-ın portfelinə avadanlıq və kameralardan tutmuş Avropa, Amerika və Kanadadakı aktyorlara və məkanlara qədər hər birinin özünəməxsus tələbləri olan müxtəlif layihələr üçün çoxsaylı çəkilişlər daxildir. “Bütün layihə nüanslarını başa düşmək unikal həllər təqdim etmək üçün vacibdir. Bu proses həqiqətən də Hollivud filminin rejissorluğuna bənzəyir və çox cəlbedicidir. İstənilən ssenari etik, əxlaqi və hüquqi standartlara uyğunlaşdıqca həll edilə bilər”, - Sorokin deyir.


Kabindaxili Layihələr

Bir nümunə, sürücünün diqqətini yayındıran amilləri aşkar etməyə yönəlmiş layihələrdir. Keymakr ümumi yayındırma davranışlarını simulyasiya etmək üçün bir sıra ssenarilər işləyib hazırlayıb, məsələn:


  • Avtomobil sürərkən mobil telefonlardan istifadə
  • Diqqəti yola yönəltmək əvəzinə tez-tez arxa görünüş güzgüsünü yoxlamaq
  • Siqaret yandırmaq və ya alışqandan istifadə etmək
  • Şüşələrdən və ya samandan içmək
  • Üzlərini gizlədən şapka taxmaq modellərin onları tanımasını çətinləşdirir


Bu ssenarilər onlarla iştirakçı ilə idarə olunan şəraitdə modelləşdirilmişdir. Bir layihə üçün 1-5 dəqiqəlik 5000-dən çox qısa videolar müxtəlif diqqəti yayındıran fəaliyyətlər həyata keçirən iştirakçıları çəkdi. Bu, sistemə davranış nümunələrini tanımağa və qeyri-adi vəziyyətlərə uyğun reaksiya verməyə imkan verdi.



Silahlı hücumun tanınması

Məlumatların yaradılması tez-tez ofis təhlükəsizliyinə yönəlmiş AI modelləri üçün istifadə olunur. Son bir layihə simulyasiya edən ssenariləri əhatə edirdi:

  • Girovları təhdid edən silahlı şəxsin görünüşü
  • Silahların şəxslər arasında ötürülməsi
  • Atışma baş verib, xəsarət alanlar var


Modeli öyrətmək üçün aqressiv davranış, qrup hərəkətləri və obyektlərin idarə edilməsinin müxtəlif kombinasiyalarını nümayiş etdirən 3000-dən çox video tələb olunurdu.


Təhlükəsizlik Layihələri

Keymakr sərhədçiləri əvəz etmək üçün nəzərdə tutulmuş hava limanının təhlükəsizlik kameraları layihələri üzərində işləyib. Kameralar tələb olunur:

  • Üzləri tanıyın və onları pasport məlumatları ilə uyğunlaşdırın
  • Giriş qapılarını avtomatik idarə edin


Layihə tələb olunur:

  • Müxtəlif etnik mənşəli 5000 fərddən məlumatlar
  • Müxtəlif şəraitdə 1000-ə yaxın ssenari (aşağı işıqlandırma, birbaşa işığa məruz qalma, pis hava)
  • İştirakçıların əlləri ilə üzlərini örtdüyü, eynək, papaq və ya başlıq taxdığı ssenarilər


Kritik cəhət 50 yaşdan yuxarı afroamerikalılar və ya Cənubi Asiya fərdləri kimi xüsusi demoqrafik məlumatların toplanması idi. Bu cür niş məlumatlar ictimaiyyətə açıq deyil, bu da fərdi Məlumat Yaratma ehtiyacını vurğulayır.

Tibbi Məlumat və Virtual Fitnes Təlimatçıları

Keymakr həmçinin tibbi layihələr və virtual fitnes təlimatçı sistemləri üçün məlumatlar yaradır. Sonuncu hələ də ortaya çıxsa da, xüsusilə uzaqdan məşqlərin və reabilitasiyanın artması ilə tələb artır.


Xbox Kinect kimi, bu sistemlər real vaxt rejimində istifadəçi hərəkətlərini izləmək üçün sensorlardan istifadə edir. Müasir texnologiya təkcə hərəkəti izləməyə deyil, həm də məşqin icrasını ətraflı təhlil etməyə imkan verir. Reabilitasiya üçün, müəyyən bir açı ilə çiyinə barmaq ucuna çatmaq kimi dəqiq hərəkətlər çox vacibdir. Sistem geribildirim verir, duruşu düzəldir, səhvləri vurğulayır və düzəlişlər təklif edir.


Bir layihə üçün Keymak məşq seanslarını, o cümlədən ağciyərlər, tullanmalar və ayaqları qaldırmaq kimi məşqləri geniş şəkildə lentə aldı. Təxminən 60 iştirakçı dəqiq hərəkət annotasiyası üçün məlumat toplamaq üçün fasiləsiz qeyd etməklə, hər biri 15 dəqiqə ərzində məşqlər həyata keçirib. Çəkilişlər təkrarlanan, yüksək intensivlikli fəaliyyətlər səbəbindən hətta kiçik iştirakçılar üçün də fiziki cəhətdən tələbkar idi.


Tibbi Tədqiqatlar: Şagirdin İşığa reaksiyası

Bir biometrik şirkət layihəsi üçün Keymakr durbin kimi xüsusi avadanlıqdan istifadə edərək işıq stimullarına şagird reaksiyaları haqqında məlumat əldə etdi. Məqsəd dəyişən işıq şəraitinə şagirdlərin reaksiya vaxtlarını təhlil etmək idi.


200-ə yaxın iştirakçı iştirak edib. Prosedurun təhlükəsizliyini təmin etmək üçün onlara hərtərəfli məlumat verilib.


Təcrübədə iştirak etdi:

  • İşıqların söndürülməsi
  • 30 saniyə gözləyin
  • Tədricən artan işıq Şagird reaksiyalarının təhlili
  • Tədqiqat nevroloji və göz xəstəliklərinin diaqnozuna kömək edən göz reaksiyasının dinamikası haqqında dəyərli məlumatlar təqdim etdi.


Məlumatların Yaradılması Prosesi

Keyfiyyətli məlumatların yaradılması diqqətli planlaşdırma, toplama, emal və çatdırılmanı əhatə edən çox mərhələli prosesdir. Tapşırıqdan asılı olaraq, bu proses əhəmiyyətli dərəcədə dəyişə bilər.


Əsas mərhələlərə aşağıdakılar daxildir:


  1. Məqsədlərin müəyyən edilməsi: Model tələblərinin, ssenarilərin və gözlənilən nəticələrin aydınlaşdırılması. İşin həcminə aşağıdakılar daxildir:
  • Tələb olunan məlumat növləri Çəkiliş şəraiti (işıqlandırma, ətraf mühit, açılar)
  • İştirakçıların demoqrafik məlumatları (yaş, cins, etnik mənsubiyyət)
  • Avadanlıqlar (kameralar, sensorlar, cihazlar)
  • Annotasiya üsulları


  1. Çəkilişlərin təşkili və aparılması: Proses məlumat növündən asılıdır:
  • Tibbi tədqiqatlar xüsusi sensorlardan istifadə edir

  • Hərəkət təhlili çox kameralı quraşdırmalardan istifadə edir

  • Avtomobildə olan kameralar sürücü/sərnişin davranışını qeydə alır


Çəkilişdən əvvəl avadanlıq yoxlanılır, ssenarilər sınaqdan keçirilir və iştirakçılara məlumat verilir. Real əməliyyatları yaxından təqlid edən şəraitdə məlumatların yaradılmasına xüsusi diqqət yetirilir. Məsələn, sürücünün yorğunluğunun təhlili layihələrində uzun səfərlərin şərtləri simulyasiya edilir, hərəkət xəstəliyinin öyrənilməsində isə müxtəlif hərəkət şərtlərində sərnişinin vəziyyətinin dəyişməsi qeydə alınır.


  1. Məlumatların işlənməsi və annotasiya: Çəkilişdən sonra:
  • Müvafiq görüntüləri süzün və seçin
  • Şəkil keyfiyyətini tənzimləyin (rəng, işıqlandırma, kəskinlik)
  • Əsas məqamları qeyd edin (gözlər, dodaqlar, əllər, bədən duruşu)
  • Hərəkətləri təsnif edin (baş dönmə, yanıb-sönmə, telefondan istifadə)


Annotasiya üçün həm əl üsulları, həm də avtomatlaşdırılmış alətlər istifadə olunur. Bəzən müştərilər tibbi tədqiqatlarda mikro-göz hərəkətlərini izləmək və ya yüzlərlə sürücü davranış parametrlərini təhlil etmək kimi xüsusi təfərrüatlar tələb edirlər.


  1. Məlumatların Çatdırılması: Yekun məlumat dəstləri müştərinin istifadəsi üçün strukturlaşdırılmışdır, o cümlədən:
  • Annotasiyalı videolar
  • Etiketli şəkillər
  • Hərəkət xüsusiyyətləri ilə parametr cədvəlləri


Məlumatların saxlanması və ötürülməsi ilə bağlı məsələlər də nəzərdən keçirilir. Məsələn, bir neçə saatlıq çəkilişdən sonra 4K videonun həcmi bir neçə terabata çata bilər ki, bu da xüsusi serverlər və ya bulud həlləri tələb edir.

Məlumatların yaradılmasında Çətinliklər

Məlumatların yaradılmasını təmin edərkən, yalnız texniki məhdudiyyətləri deyil, həm də məlumatlarla işləməyin hüquqi və etik aspektlərini nəzərə almaq vacibdir.


Dennis Sorokin deyir: "Hər bir təfərrüatın vacib olduğu verilənlər dünyasında sadəcə məlumat yaratmaq kifayət deyil; onun dəqiqliyini, müxtəlifliyini və etik standartlara uyğunluğunu təmin etmək çox vacibdir. Bu olmadan bütün proses öz dəyərini itirir və reallığı təhrif etmək riski ilə üzləşir".


  • İştirakçıların Müxtəlifliyi

Layihədən asılı olaraq, iştirakçılar müxtəlif yaş qruplarından, cinslərdən, millətlərdən və dəri tonlarından gəlməli ola bilər. Bəzi hallarda, xüsusi xüsusiyyətlərə malik iştirakçılar tələb olunur - məsələn, emosiyaların təhlili üçün müxtəlif üz ifadələri olan tibbi tədqiqatlar üçün yaşlı şəxslər və ya biometrik sistemlər üçün xüsusi fizioloji xüsusiyyətlərə malik olan şəxslər.


Müxtəlif bölgələrdə uyğun iştirakçıları tapmaq çətin ola bilər. Bəzən, müxtəlif icma üzvləri ilə həqiqətən müxtəlif məlumat dəstləri yaratmaq üçün lazımi sayda iştirakçıları təmin etmək üçün “kastinq” prosesi həftələr və hətta aylar çəkə bilər.


  • Məlumat Həcmi və Texniki Məhdudiyyətlər

Yüksək keyfiyyətli videonun çəkilməsi əhəmiyyətli saxlama və məlumat ötürmə resursları tələb edir. Məsələn, bir saat ərzində 4K video yazmaq bir neçə onlarla gigabayt tuta bilər. İnfraqırmızı, termal və s. kimi xüsusi kameralar daha çox məlumat istehsal edə bilər. Layihədə birdən çox kamera istifadə edilərsə, ümumi məlumat həcmi bir neçə terabata qədər arta bilər. İş axınının təşkili məlumatların səmərəli ötürülməsindən annotasiyaya və müştərilərə çatdırılmasına qədər güclü avadanlıq və diqqətlə planlaşdırılmış logistika tələb edir.


  • Etik və Hüquqi Çağırışlar

Məlumatların yaradılması bir sıra etik və hüquqi narahatlıqlar doğurur, xüsusən də insanların şəkilləri, biometrik məlumatlar və ya ictimai yerlərdə hərəkətləri olan məlumatların toplanması ilə bağlı. Etik nöqteyi-nəzərdən çəkilişdə iştirak edən bütün iştirakçılar lazımi sənədləri imzalayaraq məlumatlarının istifadə edilməsinə razılıq verməlidirlər. Məxfilik də mühüm rol oynayır; Müştəri tələb etmədikdə insanların müəyyən edilə bilməməsini təmin etmək və məlumatların mühafizəsi standartlarına riayət etmək lazımdır. Digər aktual məsələ məlumatların manipulyasiyasıdır - süni modelləşdirmə və ya səhnələşdirilmiş səhnələr məlumatın təhrif edilməsinin və alqoritmik qərəzliyin qarşısını almaq üçün reallığı yaxından əks etdirməlidir.



Hüquqi baxımdan əsas problem şəxsi məlumatların qorunmasıdır. Avropada GDPR və ABŞ-da CCPA kimi qaydalar iştirakçıların məlumatlarının silinməsini tələb etmək hüquqları da daxil olmaqla məlumatların toplanması və emalı üçün ciddi təlimatlar müəyyən edir. Toplanmış məlumatların kommersiya məqsədləri üçün istifadəsinə də məhdudiyyətlər var: bir layihə üçün toplanmış məlumat həmişə iştirakçıların razılığı olmadan yenidən satıla və ya digər tədqiqatlarda istifadə edilə bilməz. Bundan əlavə, ictimai çəkilişlə bağlı qanunlar ölkədən ölkəyə fərqlənir - bəzi yerlərdə insanların razılığı olmadan çəkilişlərə icazə verilir. Bunun əksinə olaraq, digərləri xüsusi icazələr tələb edir, xüsusən də məlumatlar kommersiya və ya tədqiqat məqsədləri üçün istifadə edildikdə. Etik standartlara və qanuni tələblərə riayət etmək məlumatların işlənməsinin əsas aspektidir, risklərin azaldılmasına kömək edir və məlumatın müvafiq və təhlükəsiz şəkildə istifadə olunmasını təmin edir.

Nəticələr

Dennis Sorokin hesab edir ki, məlumatların yaradılması xüsusilə ictimai sahədə tapıla bilməyən xüsusi video materialları tələb edən layihələrdə çox axtarılan sahə olaraq qalır. “Növbəti nəsil daşınma üçün süni intellekt öyrədirsinizsə, mağazalarda istehlakçı davranışını təhlil edirsiniz və ya tibbi tədqiqatın sərhədlərini aşırsınız, əsas odur ki, çevik, dəqiq və müştərilərin ehtiyacları ilə uyğunlaşmaqdır”. Çətinliklərə baxmayaraq, bu sahə inkişaf etməyə davam edir, müxtəlif sənaye sahələrində tətbiqlər tapır və artan diqqət və tələbat qazanır.