Чоң масштабдуу блокбастерлердин кандайча жасалганын билесизби? Процесс кылдаттык менен тандалган жерлерди, кесипкөй жабдууларды, актёрлорду, операторлорду, жарыктандыруу адистерин жана ар бир көрүнүштү так кайра жаратуу үчүн бүтүндөй экипажды камтыйт. AI дүйнөсүндө маалыматтарды түзүү ушундай эле иштейт. Ал бул кинематикалык процессти чагылдырат, бирок аудиторияны көңүл ачуунун ордуна, алгоритмдерди натыйжалуу үйрөнүү үчүн талап кылынган "кадрларды" чыгаруу максат.
Cognilytica ылайык, AI өнүктүрүүнүн 80% чыныгы окутуу эмес, маалыматтарды даярдоо — түзүү, чогултуу, аннотациялоо жана иштетүү. Бул этаптардын биринде, чыныгы дүйнөдөгү маалыматтар жетишсиз болгондо, маалыматтарды түзүү кадамдарга барат. "Сахна" канчалык реалдуу жана ар түрдүү болсо, AI ошончолук акылдуураак болот.
Кеймакрдын Долбоорду башкаруу бөлүмүнүн башчысы Деннис Сорокин Маалыматтарды түзүүнүн маанилүүлүгү, процесси, кыйынчылыктары жана реалдуу дүйнөдөгү колдонмолору тууралуу түшүнүктөрү менен бөлүшөт.
Маалыматтарды түзүү - бул долбоордун конкреттүү муктаждыктарына ылайыкташтырылган ыңгайлаштырылган сүрөт жана видео маалымат топтомдорун түзүү процесси. Бул маалымат топтомдору реалдуу дүйнө сценарийлерин так чагылдырышы керек. Маалыматтарды түзүү, айрыкча, автоунаа, медицина, коопсуздук тутумдары, спорт жана чекене соода тармагында маалыматтардын сапатына жана көлөмүнө болгон талаптардын өсүшүнөн улам барган сайын популярдуу болуп баратат. Компаниялар моделдин тактыгын жана өндүрүмдүүлүгүн жакшыртуу үчүн маалыматтарды түзүүгө каражат жумшашат.
Маалыматтарды түзүү, адатта, чыныгы дүйнөдөгү маалыматтар жеткиликсиз же жетишсиз болгондо колдонулат. Бул процесс төмөнкүлөрдү камтышы мүмкүн:
Учурдагы берилиштер топтомун көбөйтүү: Шарттарды өзгөртүү, объекттерди кошуу же өзгөрмөлүүлүгүн жогорулатуу. Компаниялар учурдагы маалымат топтомдорун сатып алып, аларга атайын компаниялар тарабынан аннотацияланышы мүмкүн.
Синтетикалык маалыматтарды түзүү: моделди окутуу үчүн сүрөттөрдү, тексттерди же видеолорду түзүү үчүн программалык каражаттарды колдонуу. Мисалы, программалык камсыздоо берилген сценарийдин негизинде сүрөттөрдү же видеолорду жаратышы мүмкүн. Бирок, синтетикалык маалыматтардын чектөөлөрү бар: алар алдын ала аныкталган параметрлердин негизинде түзүлөт жана чыныгы маалыматтардын табигый өзгөрүлмөлүүлүгү жок. Деннис Сорокин түшүндүргөндөй, "Чыныгы милдеттерде, өзгөчө 99%дан жогору тактык талап кылынганда, синтетикалык маалыматтар талап кылынган сапатты камсыз кыла албайт. Ал тургай 0,1% ката көрсөткүчү бар система аэропорттогу жүздөгөн адамдарды туура эмес аныктап же жолдо кооптуу жагдайларды жаратышы мүмкүн. Ошондуктан салттуу сценарийлер абдан маанилүү."
Edge Cases үчүн маалыматтарды түзүү: моделдин ишенимдүүлүгү үчүн уникалдуу сценарийлерде сүрөттөрдү жана видеолорду тартуу. Татаал тапшырмалар үчүн реалдуу маалыматтар маанилүү. Мисалы, айдоочунун эсин жоготкондугун тааный турган моделди үйрөтүү үчүн, бул абалды окшоштурган ар кандай адамдар менен кеминде 1000 видео талап кылынат. Катышуучуларга "эсин жоготкондой түр көрсөтүү" сыяктуу жөнөкөй көрсөтмөлөр берилет. Бири башын жерге салса, экинчиси көзүн жумуп, бирөө капталга эңкейиши мүмкүн. Бул табигый өзгөрүлмө реалдуу маалыматтарды укмуштуудай баалуу кылып, моделди окутуунун тактыгын бир топ жакшыртат.
Keymakr портфолиосу ар түрдүү долбоорлор үчүн көптөгөн съёмкаларды камтыйт, алардын ар бири уникалдуу талаптарга ээ — жабдуулар менен камералардан баштап, Европа, Америка жана Канададагы актёрлорго жана жерлерге чейин. «Уникалдуу чечимдерди жеткирүү үчүн долбоордун бардык нюанстарын түшүнүү зарыл. Бул процесс чындап эле Голливуд тасмасын режиссёрдукка окшош жана абдан кызыктуу. Кандай гана сценарий этикалык, моралдык жана укуктук нормаларга туура келсе, аны чечүүгө болот”, - дейт Сорокин.
Кабинанын ичиндеги долбоорлор
Бир мисал, айдоочулардын алаксыганын аныктоого багытталган долбоорлор. Keymakr жалпы алаксытуу жүрүм-турумун моделдөө үчүн бир катар сценарийлерди иштеп чыккан, мисалы:
Бул сценарийлер ондогон катышуучулар менен көзөмөлдөнгөн шарттарда моделдешти. Бир долбоор үчүн, 1-5 мүнөттүк 5000ден ашык кыска видеолор катышуучуларды алаксыткан ар кандай иш-аракеттерди жасаган. Бул системага жүрүм-турум үлгүлөрүн таанууга жана адаттан тыш кырдаалдарга туура жооп берүүгө мүмкүндүк берди.
Куралдуу чабуулду таануу
Маалыматтарды түзүү көбүнчө кеңсе коопсуздугуна багытталган AI моделдеринде колдонулат. Акыркы долбоорлордун бири окшоштурулган сценарийлерди камтыды:
Моделди үйрөтүү үчүн агрессивдүү жүрүм-турумдун, топтун кыймылынын жана объектти башкаруунун ар кандай комбинацияларын көрсөткөн 3000ден ашык видео талап кылынат.
Коопсуздук долбоорлору
Кеймакр чек арачыларды алмаштыруу үчүн иштелип чыккан аэропорттун коопсуздук камераларынын долбоорлорунун үстүндө иштеген. Камералар үчүн зарыл:
Долбоор талап кылынат:
Критикалык аспект 50 жаштан ашкан африкалык америкалыктар же түштүк азиялык адамдар сыяктуу белгилүү бир демографиялык маалыматтардан маалыматтарды чогултуу болду. Мындай ниш маалыматтар жалпыга жеткиликтүү эмес, бул ыңгайлаштырылган маалыматтарды түзүү зарылдыгын баса белгилейт.
Keymakr ошондой эле медициналык долбоорлор жана виртуалдык фитнес инструктор системалары үчүн маалыматтарды түзөт. Акыркысы дагы эле пайда болуп жатканына карабастан, суроо-талап өсүп жатат, айрыкча алыскы машыгуулардын жана реабилитациянын өсүшү менен.
Xbox Kinect сыяктуу, бул системалар реалдуу убакытта колдонуучунун кыймылын көзөмөлдөө үчүн сенсорлорду колдонушат. Заманбап технология кыймылга көз салууга эле эмес, көнүгүүлөрдүн аткарылышын деталдуу талдоого мүмкүндүк берет. Калыбына келтирүү үчүн, так кыймылдар, мисалы, белгилүү бир бурчта ийнине манжа учун жетүү үчүн абдан маанилүү болуп саналат. Система пикирди камсыздайт, позаны оңдойт, каталарды баса белгилейт жана оңдоолорду сунуштайт.
Бир долбоор үчүн Кеймак машыгууларды, анын ичинде өпкө, секирүү жана бутту көтөрүү сыяктуу көнүгүүлөрдү кеңири тасмага тартты. Болжол менен 60 катышуучу кыймылды так аннотациялоо үчүн маалыматтарды чогултуу үчүн үзгүлтүксүз жазуу менен ар бири 15 мүнөттөн көнүгүүлөрдү аткарышты. Бүчүрлөрү кайталануучу, жогорку интенсивдүү иш-аракеттерден улам жаш катышуучулар үчүн да физикалык жактан талап кылынган.
Медициналык изилдөөлөр: жарыкка окуучулардын реакциясы
Биометрикалык компаниянын долбоору үчүн Кеймакр дүрбүгө окшош атайын жабдыктарды колдонуу менен каректердин жарык стимулдарына реакциясы боюнча маалыматтарды чогулткан. Максаты окуучулардын жарыктын өзгөрүшүнө жооп берүү убактысын талдоо болгон.
200гө жакын катышуучу катышты. Процедуранын коопсуздугун камсыз кылуу үчүн аларга кылдат түшүндүрүү иштери жүргүзүлдү.
Эксперимент камтылган:
Сапаттуу маалыматтарды түзүү - бул кылдат пландаштырууну, чогултууну, иштетүүнү жана жеткирүүнү камтыган көп баскычтуу процесс. Тапшырмага жараша, бул процесс олуттуу түрдө өзгөрүшү мүмкүн.
Негизги этаптарга төмөнкүлөр кирет:
Медициналык изилдөөлөр атайын сенсорлорду колдонот
Кыймыл анализи көп камералуу орнотууларды колдонот
Унаа ичиндеги камералар айдоочунун/жүргүнчүнүн жүрүм-турумун тартып алат
Атуу алдында жабдуулар текшерилип, сценарийлер текшерилип, катышуучуларга маалымат берилет. Чыныгы операцияларды окшоштурган шарттарда маалыматтарды түзүүгө өзгөчө көңүл бурулат. Мисалы, айдоочунун чарчоону талдоо долбоорлорунда узак сапарлардын шарттары окшоштурулган, ал эми кыймыл оорусун изилдөөдө жүргүнчүлөрдүн абалынын өзгөрүүсү ар кандай кыймыл шарттарында жазылат.
Аннотация үчүн кол методдору да, автоматташтырылган куралдар да колдонулат. Кээде кардарлар медициналык изилдөөдө микро көздүн кыймылына көз салуу же айдоочунун жүрүм-турумунун жүздөгөн параметрлерин талдоо сыяктуу конкреттүү деталдарды талап кылышат.
Маалыматтарды сактоо жана өткөрүү менен байланышкан маселелер да каралат. Мисалы, бир нече саатка созулган 4K видеонун көлөмү бир нече терабайтка жетиши мүмкүн, бул үчүн атайын серверлер же булут чечимдери талап кылынат.
Маалыматтарды түзүүнү камсыз кылууда техникалык чектөөлөрдү гана эмес, маалыматтар менен иштөөнүн укуктук жана этикалык аспектилерин да эске алуу зарыл.
"Ар бир майда-чүйдөсүнө чейин маанилүү болгон маалыматтар дүйнөсүндө, жөн гана маалыматтарды түзүү жетишсиз; анын тактыгын, көп түрдүүлүгүн жана этикалык стандарттарга шайкеш келишин камсыз кылуу өтө маанилүү. Ансыз бүт процесс өзүнүн баалуулугун жоготот жана чындыкты бурмалоо коркунучу бар", - дейт Деннис Сорокин.
Долбоорго жараша катышуучулар ар кандай курактагы топтордон, жыныстардан, улуттардан жана тери өңүнөн келиши керек болушу мүмкүн. Кээ бир учурларда, өзгөчө мүнөздөмөлөргө ээ катышуучулар талап кылынат - мисалы, эмоцияларды талдоо үчүн ар кандай мимика менен медициналык изилдөөлөр үчүн улгайган адамдар же биометрикалык системалар үчүн өзгөчө физиологиялык өзгөчөлүктөрү бар адамдар.
Ар кайсы аймактарда ылайыктуу катышуучуларды табуу кыйынга турушу мүмкүн. Кээде, коомчулуктун ар кандай мүчөлөрү менен чындап эле ар түрдүү маалымат топтомдорун түзүү үчүн катышуучулардын туура санын камсыз кылуу үчүн "кастинг" процесси бир нече жума же айларды талап кылышы мүмкүн.
Жогорку сапаттагы видеону тартуу үчүн олуттуу сактоо жана маалыматтарды өткөрүү ресурстары талап кылынат. Мисалы, 4K видеону бир саатка жаздыруу бир нече ондогон гигабайттарды алат. Атайын камералар, мисалы, инфракызыл, жылуулук, ж.б., дагы көп маалыматтарды чыгара алат. Эгерде долбоордо бир нече камера колдонулса, жалпы маалымат көлөмү бир нече терабайтка чейин көбөйүшү мүмкүн. Жумуш процессин уюштуруу күчтүү жабдууларды жана кылдат пландаштырылган логистиканы талап кылат, маалыматтарды эффективдүү өткөрүп берүүдөн баштап аннотацияга жана кардарларга жеткирүүгө чейин.
Маалыматтарды түзүү, айрыкча, адамдардын сүрөттөрүн, биометрикалык маалыматтарды же коомдук жерлердеги аракеттерди камтыган маалыматты чогултууну камтыса, бир нече этикалык жана юридикалык көйгөйлөрдү жаратат. Этикалык көз караштан алганда, тасма тартуунун бардык катышуучулары керектүү документтерге кол коюу менен өз маалыматтарын колдонууга негизделген макулдук бериши керек. Жашыруундуулук да негизги ролду ойнойт; кардар талап кылбаганда адамдарды аныктоо мүмкүн эмес экенин камсыз кылуу жана маалыматтарды коргоо стандарттарын сактоо зарыл. Дагы бир актуалдуу маселе - маалыматтарды манипуляциялоо — маалыматтын бурмаланышын жана алгоритмдик бурмалоону болтурбоо үчүн жасалма моделдөө же сахналаштырылган көрүнүштөр чындыкты жакындан чагылдырышы керек.
Юридикалык көз караштан алганда, негизги маселе жеке маалыматтарды коргоо болуп саналат. Европадагы GDPR жана АКШдагы CCPA сыяктуу жоболор маалыматтарды чогултуу жана иштетүү боюнча катуу көрсөтмөлөрдү, анын ичинде катышуучулардын өз маалыматтарын алып салууну талап кылуу укуктарын белгилейт. Чогултулган маалыматтарды коммерциялык максатта колдонууга да чектөөлөр бар: бир долбоор үчүн чогултулган маалыматты катышуучулардын макулдугусуз кайра сатуу же башка изилдөөдө колдонуу мүмкүн эмес. Андан тышкары, коомдук тасма тартууга байланыштуу мыйзамдар өлкөдө ар башка болот — айрым жерлерде адамдарды алардын макулдугусуз тартууга уруксат берилет. Ал эми башкалар, өзгөчө, маалыматтар коммерциялык же изилдөө максатында колдонулганда, атайын уруксаттарды талап кылат. Этикалык стандарттарды жана мыйзамдуу талаптарды сактоо маалыматтарды иштетүүнүн негизги аспектиси болуп саналат, тобокелдиктерди азайтууга жардам берет жана маалыматтын туура жана коопсуз колдонулушун камсыз кылат.
Деннис Сорокин маалымат түзүү өзгөчө коомдук доменде табууга мүмкүн эмес конкреттүү видео материалдарды талап кылган долбоорлордо абдан изденүүчү тармак бойдон калууда деп эсептейт. "Сиз AIны кийинки муундарды ташуу үчүн үйрөтүп жатасызбы, дүкөндөрдө керектөөчүлөрдүн жүрүм-турумун талдап жатасызбы же медициналык изилдөөнүн чектерин жылдырасызбы, негизги нерсе ийкемдүү, так жана кардарларга керектүү нерсеге шайкеш болуу" дейт ал. Кыйынчылыктарга карабастан, бул тармак өнүгүп, ар кандай тармактарда тиркемелерди таап, көңүл бурууну жана суроо-талапты жогорулатууну улантууда.