paint-brush
RGB барои AI ва ҷараён кӯҳна шудаастаз ҷониби@ykanavalik
385 хониш
385 хониш

RGB барои AI ва ҷараён кӯҳна шудааст

аз ҷониби Yauheni Kanavalik7m2025/02/09
Read on Terminal Reader

Хеле дароз; Хондан

*YUV* метавонад барои онҳое, ки дар ҷараёни видеои P2P ё коркарди ҷараёнҳои видеоӣ бо AI машғуланд, бениҳоят муфид бошад. YUV пешсаф аст ва як қатор муомилоти мураккабро пинҳон мекунад, ки ба мо имкон медиҳанд, ки видеоҳоро бе таъхир тамошо кунем, гигабайтҳои маълумотро сарфа кунем ва коркарди вақти воқеӣ барои AI-ро суръат бахшем.
featured image - RGB барои AI ва ҷараён кӯҳна шудааст
Yauheni Kanavalik HackerNoon profile picture
0-item
1-item
2-item

Пас аз сарф кардани даҳҳо шабҳои бехоби кор бо форматҳои рамзгузории рангҳои YUV , ман фаҳмидам, ки дар бораи ин формати аҷиб то чӣ андоза маълумоти кам мавҷуд аст. Бо вуҷуди ин, он метавонад барои онҳое, ки дар ҷараёни видеои P2P ё коркарди ҷараёнҳои видеоӣ бо AI машғуланд, бениҳоят муфид бошад.


Дар назари аввал, RGB ва YUV метавонад танҳо роҳҳои гуногуни муаррифии ранг ба назар расад. Аммо дар зери ин тафовут муборизаи давомдор аст: роҳат бар зидди самаранокӣ, дақиқӣ бар зидди иҷроиш, дарки комил ва фишурдашавӣ бидуни талафоти намоён. Фарз кардан мумкин аст, ки RGB подшоҳи бешубҳа фазои рангҳост - дар ниҳоят камераҳо, экранҳо ва аксари шабакаҳои нейронӣ дар он кор мекунанд. Бо вуҷуди ин, дар ҷаҳони ҷараён ва рамзгузории видео, YUV пешсаф аст ва дар зери сарпӯш як қатор муомилоти мураккабро пинҳон мекунад, ки ба мо имкон медиҳанд, ки видеоҳоро бе таъхир тамошо кунем, гигабайтҳои маълумотро сарфа кунем ва коркарди вақти воқеиро суръат бахшем.


Аммо агар шумо хоҳед, ки ин ду ҷаҳонро пайванд кунед? Моделҳои AI, ки дар RGB омӯхта шудаанд, ҷараёнҳои видеоиро дар YUV чӣ гуна идора мекунанд? Чаро кодекҳо аз кор бо RGB худдорӣ мекунанд? Ва оё мувозинати комил байни ин форматҳо имконпазир аст? Дар ин ҷо, ман ба шумо кӯмак мекунам, ки чаро RGB ва YUV ба ду муштзани вазнҳои гуногун монанданд, ки маҷбуранд дар як ҳалқаи ҷараёнҳои видео ва технологияи AI вохӯранд.

RGB ва YUV: Онҳо чистанд?

Форматҳои RGB ва RGBA хеле соддаанд ва дар графикаи компютерӣ ба таври васеъ истифода мешаванд, аз ин рӯ мо ба асосҳои он чандон амиқ намеравем. Хулоса, вақте ки компютери шумо тасвирро пешкаш мекунад, он бо се канал кор мекунад - Сурх (R) , Green (G) ва Blue (B) . Аксари экранҳо ҳамин тавр кор мекунанд.


RGBA як канали иловагӣ - Alpha (A) -ро илова мекунад, ки шаффофиятро назорат мекунад ва онро махсусан барои графикаи веб ва тарроҳии рақамӣ муфид мегардонад. RGB рангҳоро бе таҳриф ба таври дақиқ муаррифӣ мекунад, аммо он як камбудии ҷиддӣ дорад - он фазои аз ҳад зиёд мегирад. Масалан, тасвир бо қарори 1920 × 1080 дар формати RGBA (бо истифода аз 1 байт дар як канал) мегирад: 1920×1080×4 = 8294400 bytes ≈ 8.2 MB


Сохтори RBG Аксҳо аз ҷониби Майкл Маасен дар Unsplash


Форматҳои фишурдашуда ба монанди JPEG андозаи файлро кам мекунанд, аммо дар ҷаҳони ҷараёни видеои P2P ва коркарди AI дар вақти воқеӣ дар мошинҳои муштариён - ба монанди шинохти объект, муайянкунии нуқтаи калидӣ ва сегментатсия - ин як варианти қобили қабул нест. Мо бояд ҳар як кадрро дар вақти воқеӣ бидуни ворид кардани артефактҳои фишурдашуда ё аз даст додани ҷузъиёти муҳим интиқол ва таҳлил кунем. Маҳз дар он ҷо YUV ба кор даромада, муносибати оқилонаро барои мувозинати сифат, самаранокӣ ва иҷроиш пешниҳод мекунад.

YUV чист?

Баръакси RGB, ки маълумоти рангро мустақиман нигоҳ медорад, YUV тасвирро ба ҷузъҳои luma (Y) ва хрома (U ва V) ҷудо мекунад. Ин равиш имкон медиҳад, ки фишурдасозии самараноки маълумот бидуни талафоти назарраси сифат.


Y (Luma, равшанӣ) - Равшании пикселро нишон медиҳад ва муайян мекунад, ки он чӣ гуна равшанӣ ё торикӣ пайдо мешавад. Аслан, ин версияи хокистарранг (сиёҳ-сафед)-и тасвир буда, ҳама шаклҳо ва ҷузъиётро нигоҳ медорад.


U ва V (Chroma, ранг) - Маълумоти рангро нигоҳ доред, аммо бо дақиқии камтар, зеро чашми инсон равшаниро нисбат ба дақиқии ранг сахттар дарк мекунад. Оддӣ карда гӯем, ин каналҳо ҳамчун "гузариши" дученакаи равшанӣ ба рангҳои гуногун амал мекунанд.


Ин ҷудокунӣ калиди он аст, ки чаро YUV барои фишурдани видео, ҷараён ва коркарди видео дар асоси AI ин қадар самаранок аст.

Чаро YUV барои ҷараёни видео беҳтар аст?

Яке аз бартариҳои камтар намоён, вале хеле самараноки YUV ин аст, ки яке аз каналҳои он (Y) барои нигоҳ доштани ранг умуман пешбинӣ нашудааст. Ба ҷои ин, он ба таври дақиқ тавсиф мекунад шакл аз объектхо.

Ин чӣ гуна бо биниши инсон алоқаманд аст?

Чашми инсон тасвирҳоро бо истифода аз ду намуди фоторесепторҳо дар ретина қабул мекунад:


  • Ҳуҷайраҳои чӯб (~ 120 миллион) - Ба равшанӣ ва контраст ҳассосанд, аммо рангро муайян карда наметавонанд. Онҳо ба мо имкон медиҳанд, ки шаклҳо ва ҷузъиётро ҳатто дар нури кам бубинем.

  • Ҳуҷайраҳои конус (~6 миллион) - Барои дарки ранг масъуланд, аммо шумораи онҳо 20 маротиба камтар аст. Онҳо танҳо дар шароити равшании хуб кор мекунанд ва дар се намуд меоянд: сурх, сабз ва кабуд ( RGB , тааҷҷубовар).


Аз сабаби ин номутавозунии ретсепторҳо, мағзи мо ба шакл бар ранг афзалият медиҳад. Агар равшанӣ ё контраст таҳриф карда шавад, мо онро фавран мушоҳида мекунем. Бо вуҷуди ин, тағироти ночизи ранг аксар вақт нодида гирифта мешавад.


Ин Принсипи асосии YUV аст

  • Канали Y (равшанӣ) бетағйир боқӣ мемонад, то шаклҳои объектро нигоҳ дорад, то ҳуҷайраҳои чӯб дар чашмони шумо писанд оянд.
  • Каналҳои U ва V (маълумоти ранг) метавонанд бидуни эҷоди артефактҳои намоён фишурда шаванд ва шумораи ками ҳуҷайраҳои конус ягон фарқиятро пай намебаранд.


Ин маънои онро дорад, ки бар хилофи RGB - дар он ҷо ҳар се канал яксон муҳиманд - YUV ба каналҳои худ дар асоси дарки инсон ба таври гуногун муносибат мекунад. Азбаски маълумоти рангӣ (U ва V) камтар муҳим аст, мо метавонем миқдори маълумоти интиқолшударо бидуни гум кардани сифати даркшаванда кам кунем.


Маҳз ҳамин тавр механизми Chroma Subsampling кор мекунад - оптимизатсияи рамзгузории видео бо роҳи интихобан фишурдани иттилооти ранг ва нигоҳ доштани равшанӣ.

Чӣ тавр зер намунаи Chroma ҷаҳони ҷараёни видеоро наҷот медиҳад

Зернамунагирии Chroma як усули кам кардани миқдори маълумоти рангӣ дар тасвир аст. Ба ҷои нигоҳ доштани ранг барои ҳар як пиксел (ба мисли RGB ), YUV ҳалли каналҳои рангро паст мекунад ва дар ҳоле ки равшанӣ (шакл) бетағйир нигоҳ дошта мешавад.


Якчанд стандартҳои саноатӣ барои зернамунагирии хрома мавҷуданд:

  • 4:2:2 зернамуна - Ҳар як ҷуфти пиксел маълумоти рангро мубодила мекунад. Чашм фарқиятро базӯр пай мебарад, аммо андозаи файл 33% кам мешавад. Ин усул хеле кам истифода мешавад.

  • 4:2:0 зернамуна - Ранг танҳо барои як пиксел аз чаҳор пиксел нигоҳ дошта мешавад ва ба фишурдани ҳадди аксар ноил мешавад.


Чаро 4:2:0 стандарти асосӣ аст?

Ин формат андозаи маълумотро ду маротиба кам мекунад ва сифати тасвирро ба таври назаррас паст мекунад. Аз ин рӯ, он барои қариб ҳама хидматҳои ҷараёнӣ ва платформаҳои видеоӣ стандарт аст. Масалан, Microsoft Teams видеоро дар 4:2:0 интиқол медиҳад, зеро он мувозинати беҳтаринро байни сифат ва самаранокии фарохмаҷро таъмин мекунад.


Дар ин танзимот, арзиши ягонаи ранг чаҳор пикселро ифода мекунад ва чашми инсон фарқиятро муайян намекунад - ҳатто ҳангоми калон кардан - зеро равшанӣ (Y) бетағйир мемонад.


1920×1080×1.5 = 3110400 bytes ≈ 3.1 MB дар як чаҳорчӯба, ин боиси беш аз ду маротиба кам шудани андозаи маълумот дар муқоиса бо RGBA мегардад - бе талафоти намоёни сифат!


Тасвири зер нишон медиҳад, ки чӣ тавр чаҳорчӯбаи ниҳоӣ/тасвир бо зернамунагирии хрома 4:2:0 монанд аст. Аҳамият диҳед, ки чӣ тавр як U тасвир чор Y , он 4 маротиба хотира ғолиб!

Тасвири 6x4 пиксел бо фишурдани 4:2:0. Тасвир аз ҷониби Яухени Канавалик


Чаро YUV барои AI ин қадар муфид аст?

Дар ҷаҳони имрӯза, барномаҳои AI барои коркарди видео дар вақти воқеӣ босуръат васеъ мешаванд. Шабакаҳои нейрон на танҳо барои таҳлили камераҳои назоратӣ ва баланд бардоштани сифати ҷараён, балки барои вазифаҳои мураккабтаре, аз қабили эффектҳои тавлидӣ, тағир додани намуди зоҳирӣ дар вақти воқеӣ, шинохти объект ва пайгирии ҳаракат истифода мешаванд.


Масалан, мо як системаи маҷозии ороишро таҳия кардем, ки дар чеҳраи одам дар чеҳраи лабон ва сояҳо истифода мекунад - ин корро то ҳадди имкон воқеӣ анҷом медиҳад. Дар чунин вазифаҳо, дақиқ дар шакл ва ҳаракат муҳим аст, дар ҳоле ки маълумоти рангӣ дуюмдараҷа аст. Шумо инчунин метавонед модели худро барои фаҳмидани тасвирҳои хокистарӣ омӯзед, то иҷрои онро афзоиш диҳад, дар айни замон, ба даст овардани тасвирҳои хокистарӣ дар GPU хеле самараноктар аст, агар шумо YUV 4: 2: 0-ро ҳамчун вуруд қабул кунед, зеро барои ба даст овардани канали хокистарии хокистарӣ танҳо қисми аввали тасвирро буридан лозим аст.

Мушкилоти асосӣ дар ҷараёни видеои AI

Шакл аз ранг муҳимтар аст

Моделҳои AI, ба монанди бисёре аз дигар системаҳои биниши компютерӣ, на ба таҷдиди дақиқи ранг, пеш аз ҳама ба сохтори объект, шакл ва кунҷҳо тамаркуз мекунанд. Ин барои шинохти чеҳра, пайгирии поза, ошкор кардани аномалия ва эффектҳои AR дуруст аст. Масалан, дар системаи шинохти ҳаракат, контури пикселии бадан аз оҳанги пӯст хеле муҳимтар аст.


Фаъолият муҳим аст

Барои AI дар вақти воқеӣ, ҳар як чаҳорчӯба бояд дар камтар аз 20 ms коркард карда шавад, то суръати ҳамворро нигоҳ дорад ( 50–60 FPS ). Чӣ қадаре ки шабакаи нейрон чаҳорчӯбҳоро зудтар қабул ва коркард кунад, барнома ҳамон қадар табиӣ ва моеътар кор мекунад.


  • Форматҳои RGB хеле вазнинанд – чаҳорчӯбаи 1920×1080 RGBA 8.2 MB вазн дошта, ба хотира ва қудрати коркард фишори зиёд меорад.
  • YUV бо 4:2:0 зернамунагирии хрома маълумоти нолозимро дар O(1) тавассути интиқоли ранг бо қарори пасттар коҳиш медиҳад ва захираҳои ҳисобкуниро бидуни талафоти намоёни сифат сарфа мекунад.


Коркарди GPU оптимизатсияшуда

GPU-ҳои муосир барои коркарди YUV хеле оптимизатсия шудаанд, яъне мо метавонем бо тасвирҳо бидуни табдил додани онҳо ба RGB кор кунем. Ин ҳисобҳои нолозимро аз байн мебарад ва суръати коркардро зиёд мекунад.


Сарфаи фарохмаҷро ва хотира

Коҳиш додани андозаи маълумот барои интиқол ва коркарди видео дар вақти воқеӣ муҳим аст:


  • Дар ҷараёни ҷараён бо истифода аз YUV 4:2:0 интиқоли маълумотро 50% бидуни талафоти назарраси сифат коҳиш медиҳад.
  • Дар AI, моделҳо метавонанд маълумоти фишурдашударо бидуни пур кардани он ба RGB коркард карда, VRAM ва қувваи ҳисобкуниро сарфа кунанд.

Хулоса

Биёед ростқавл бошем - RGB ба назар чунин менамояд, ки интихоби возеҳ. Ин стандарт дар камераҳо, экранҳо ва графикаи компютерӣ мебошад. Аммо вақте ки сухан дар бораи ҷараёни видео дар ҷаҳони воқеӣ ва ҳамгироии AI меравад, RGB ба динозаври суст табдил меёбад. Сипас YUV ба ҳалқа қадам мезанад, ки тавозуни комили сифат, суръат ва самаранокии маълумотро пешниҳод мекунад. Системаи нигаҳдории оқилонаи он (ҷудо кардани равшанӣ аз ранги фишурда) ба чизҳое имкон медиҳад, ки дар RGB даҳшати ҳисоббарорӣ хоҳанд буд.


  • Камтар маълумот = суръати бештар. Ҳеҷ кас намехоҳад, ки мегабайтҳои иловагӣ коркарди видеоро дар вақти воқеӣ суст кунанд.
  • Чашм ҳиларо пай намебарад . Майнаи мо ба шакл тамаркуз мекунад, на талафоти ночизи ранг - YUV аз ин пурра истифода мебарад.
  • AI ба FPS ғамхорӣ мекунад, на нозукиҳои ранг . Вақте ки шумо дар як чаҳорчӯба ҳамагӣ 16 мс доред, YUV ҳисобҳои нолозимро нест мекунад ва захираҳоро сарфа мекунад.
  • GPU-ҳо YUV-ро дӯст медоранд . Кодекҳои аз ҷониби сахтафзор суръатёфта, ҳисобҳои зуд ва табдили ҳадди ақали формат - ҳама чизест, ки ба шумо барои видеои баландсифат лозим аст.

Ҳукми ниҳоӣ

RGB олӣ аст - аммо на дар он ҷое, ки иҷрои вақти воқеӣ ва AI ҷалб карда мешаванд. Дар ҷараёни ҷараёнҳои видео, YUV кори ҳақиқӣ аст ва тӯли солҳо ҳалли асосиро тақвият медиҳад.


Ҳамин тавр, агар шумо то ҳол фикр кунед, ки RGB подшоҳ аст, вақти он расидааст, ки аз нав андеша кунед. Форматҳои видео кайҳо боз аз рӯи қоидаҳои худ бозӣ мекарданд.

L O A D I N G
. . . comments & more!

About Author

Yauheni Kanavalik HackerNoon profile picture
Yauheni Kanavalik@ykanavalik
Solution Architect at Epam System, Entrepreneur

ТЕГИ овезон кунед

ИН МАКОЛА ДАР...