paint-brush
RGB AI və Axın üçün köhnəlmişdirtərəfindən@ykanavalik
385 oxunuşlar
385 oxunuşlar

RGB AI və Axın üçün köhnəlmişdir

tərəfindən Yauheni Kanavalik7m2025/02/09
Read on Terminal Reader

Çox uzun; Oxumaq

*YUV* AI ilə P2P video axını və ya video axınlarının işlənməsi ilə məşğul olanlar üçün inanılmaz dərəcədə faydalı ola bilər. YUV başlıq altında gizlənərək, videoları gecikmədən izləməyə, gigabayt məlumatlara qənaət etməyə və süni intellekt üçün real vaxt emalını sürətləndirməyə imkan verən bir sıra mürəkkəb mübadilələri gizlətməklə liderlik edir.
featured image - RGB AI və Axın üçün köhnəlmişdir
Yauheni Kanavalik HackerNoon profile picture
0-item
1-item
2-item

YUV rəng kodlaşdırma formatları ilə işləyərək onlarla yuxusuz gecə keçirdikdən sonra bu əlamətdar format haqqında nə qədər az məlumatın olduğunu başa düşdüm. Bununla belə, AI ilə P2P video axını və ya video axınlarının işlənməsi ilə məşğul olanlar üçün inanılmaz dərəcədə faydalı ola bilər.


İlk baxışdan RGBYUV rəngi təmsil etməyin fərqli yolları kimi görünə bilər. Lakin bu fərqin altında davam edən bir döyüş dayanır: rahatlıq ilə səmərəlilik, dəqiqliklə performans, mükəmməl qavrayış və görünən itki olmadan sıxılma. Güman etmək olar ki, RGB rəng məkanlarının mübahisəsiz kralıdır - axırda kameralar, ekranlar və əksər neyron şəbəkələri orada işləyir. Bununla belə, video axını və kodlaşdırma dünyasında YUV başlıq altında gizlənərək, videoları ləngimədən izləməyə, gigabayt məlumatlara qənaət etməyə və real vaxt rejimində işləməyi sürətləndirməyə imkan verən bir sıra mürəkkəb mübadilələri gizlədir.


Bəs bu iki dünya arasında körpü yaratmaq istəsəniz nə olacaq? RGB-də təlim keçmiş AI modelləri YUV-də video axınlarını necə idarə edir? Niyə kodeklər RGB ilə işləməkdən belə çəkinirlər? Və bu formatlar arasında mükəmməl tarazlığa nail olmaq mümkündürmü? Burada mən sizə RGB və YUV-nin niyə fərqli çəki dərəcələrindən olan iki boksçuya bənzədiyini, eyni video axını və süni intellekt texnologiyasında görüşməyə məcbur olduğunu başa düşməyə kömək edəcəyəm.

RGB və YUV: Onlar nədir?

RGBRGBA formatları kifayət qədər sadədir və kompüter qrafikasında geniş istifadə olunur, ona görə də biz əsaslara çox dərindən girməyəcəyik. Qısaca desək, kompüteriniz təsviri təqdim edərkən üç kanalla işləyir - Qırmızı (R) , Yaşıl (G)Mavi (B) . Əksər ekranlar belə işləyir.


RGBA şəffaflığa nəzarət edən əlavə bir kanal — Alpha (A) əlavə edir, bu da onu veb qrafikası və rəqəmsal dizayn üçün xüsusilə faydalı edir. RGB rəngləri təhrif olmadan dəqiq şəkildə təmsil edir, lakin onun kritik bir çatışmazlığı var - çox yer tutur. Məsələn, RGBA formatında 1920 × 1080 təsvir ölçüsü (hər kanal üçün 1 bayt istifadə etməklə) yer tutur: 1920×1080×4 = 8294400 bytes ≈ 8.2 MB


RBG strukturu Unsplash-da Michael Maasen tərəfindən fotoşəkil


JPEG kimi sıxılmış formatlar faylın ölçüsünü azaldır, lakin P2P video axını və AI real vaxt rejimində müştərilərin maşınlarında - obyektin tanınması, açar nöqtənin aşkarlanması və seqmentasiya kimi - bu, uyğun seçim deyil. Biz sıxılma artefaktlarını təqdim etmədən və kritik detalları itirmədən real vaxt rejimində hər kadrı ötürməli və təhlil etməliyik. Keyfiyyət, səmərəlilik və performansı tarazlaşdırmaq üçün daha ağıllı yanaşma təklif edən YUV burada işə düşür.

YUV nədir?

Rəng məlumatını birbaşa saxlayan RGB-dən fərqli olaraq, YUV təsviri luma (Y) və xroma komponentlərinə (U və V) ayırır. Bu yanaşma əhəmiyyətli keyfiyyət itkisi olmadan məlumatların səmərəli sıxılmasını təmin edir.


Y (Luma, parlaqlıq) – Pikselin parlaqlığını təmsil edir, onun nə qədər açıq və ya qaranlıq göründüyünü müəyyən edir. Əslində, bu, bütün formaları və detalları qoruyan təsvirin boz rəngli (ağ-qara) versiyasıdır.


U və V (Chroma, rəng) – Rəng məlumatını, lakin daha az dəqiqliklə saxlayın, çünki insan gözü parlaqlığı rəng dəqiqliyindən daha kəskin şəkildə qəbul edir. Sadə dillə desək, bu kanallar parlaqlığın müxtəlif rəng çalarlarına doğru ikiölçülü “köçürülməsi” rolunu oynayır.


Bu ayırma YUV-nin video sıxılma, axın və AI əsaslı video emal üçün bu qədər effektiv olmasının açarıdır.

Video axını üçün YUV niyə daha yaxşıdır?

YUV-nin daha az aşkar, lakin yüksək effektiv üstünlüklərindən biri onun kanallarından birinin (Y) ümumiyyətlə rəng saxlamaq üçün nəzərdə tutulmamasıdır. Əksinə, o, dəqiq təsvir edir forma obyektlərin.

Bunun İnsan Baxışı ilə Necə Əlaqəsi var?

İnsan gözü retinada iki növ fotoreseptordan istifadə edərək görüntüləri qəbul edir:


  • Çubuq hüceyrələri (~120 milyon) - Parlaqlıq və kontrasta həssasdır, lakin rəngi aşkar etmək iqtidarında deyil. Onlar bizə az işıqda belə formaları və detalları görməyə imkan verir.

  • Konus hüceyrələri (~6 milyon) – Rəng qavrayışından məsuldur, lakin onların sayı 20 dəfə azdır. Onlar yalnız yaxşı işıqlandırma şəraitində işləyir və üç növdə olur: qırmızı, yaşıl və mavi ( RGB , təəccüblü deyil).


Bu reseptor balanssızlığına görə beynimiz rəngdən daha çox formaya üstünlük verir. Parlaqlıq və ya kontrast pozulubsa, biz bunu dərhal görürük. Bununla belə, cüzi rəng dəyişiklikləri çox vaxt diqqətdən kənarda qalır.


Bu YUV-nin Əsas Prinsipidir

  • Y kanalı (parlaqlıq) obyekt formalarını qorumaq üçün dəyişməz olaraq qalır ki, gözlərinizdəki çubuq hüceyrələri məmnun qalsın.
  • UV kanalları (rəng məlumatı) vizual olaraq nəzərə çarpan artefaktlar yaratmadan sıxıla bilər və daha az konus hüceyrəsi heç bir fərq fərq etməz.


Bu o deməkdir ki, hər üç kanalın eyni dərəcədə vacib olduğu RGB -dən fərqli olaraq, YUV öz kanallarına insan qavrayışına əsasən fərqli yanaşır. Rəng məlumatları (U və V) daha az kritik olduğundan, qəbul edilən keyfiyyəti itirmədən ötürülən məlumatların miqdarını azalda bilərik.


Chroma Subsampling mexanizmi məhz belə işləyir - parlaqlığı qoruyarkən rəng məlumatını seçici şəkildə sıxaraq video kodlamasını optimallaşdırır.

Chroma Subsempling Video Yayım dünyasını necə xilas edir

Xroma subsempling təsvirdəki rəng məlumatlarının miqdarını azaltmaq üçün bir texnikadır. Hər piksel üçün rəng saxlamaq əvəzinə ( RGB- də olduğu kimi), YUV parlaqlığı (forma) toxunulmaz saxlayaraq rəng kanallarının ayırdetmə qabiliyyətini azaldır.


Xroma alt nümunəsi üçün bir neçə sənaye standartı var:

  • 4:2:2 alt seçmə – Hər bir piksel cütü rəng məlumatını paylaşır. Göz fərqi çətinliklə hiss edir, lakin fayl ölçüsü 33% azalır. Bu üsul nadir hallarda istifadə olunur.

  • 4:2:0 subsempling – Rəng maksimum sıxılmaya nail olmaqla dörd pikseldən yalnız bir piksel üçün saxlanılır.


Niyə 4:2:0 əsas standartdır?

Bu format görüntü keyfiyyətini nəzərəçarpacaq dərəcədə pisləşdirmədən məlumatın ölçüsünü yarıya endirir. Buna görə də, demək olar ki, bütün axın xidmətləri və video platformaları üçün əsas standartdır. Məsələn, Microsoft Teams videonu 4:2:0 nisbətində ötürür, çünki o, keyfiyyət və bant genişliyi səmərəliliyi arasında ən yaxşı tarazlığı təmin edir.


Bu quraşdırmada tək rəng dəyəri dörd pikseli təmsil edir və parlaqlıq (Y) dəyişməz qaldığından, insan gözü yaxınlaşdırıldıqda belə fərqi aşkar etmir.


1920×1080×1.5 = 3110400 bytes ≈ 3.1 MB tək çərçivədə, bu, RGBA ilə müqayisədə məlumat ölçüsünün iki dəfədən çox azalması ilə nəticələnir - keyfiyyətdə heç bir görünən itki olmadan!


Aşağıdakı şəkil son çərçivənin/şəklin 4:2:0 xroma alt nümunəsi ilə necə göründüyünü göstərir. Bir U dörd Y-ni necə təsvir etdiyinə diqqət yetirin, 4 dəfə yaddaş qazanır!

4:2:0 sıxılma ilə 6x4 piksel şəkil. Şəkil: Yauheni Kanavalik


Niyə YUV AI üçün bu qədər faydalıdır?

Müasir dünyada real vaxt rejimində videoların işlənməsi üçün süni intellekt tətbiqləri sürətlə genişlənir. Neyron şəbəkələri yalnız müşahidə kameralarının təhlili və axın keyfiyyətinin artırılması üçün deyil, həm də generativ effektlər, real vaxt görünüşünün modifikasiyası, obyektin tanınması və hərəkətin izlənməsi kimi daha mürəkkəb vəzifələr üçün istifadə olunur.


Məsələn, biz video söhbətdə insanın üzünə pomada və göz kölgəsi tətbiq edən virtual makiyaj sistemi hazırladıq - bunu mümkün qədər real şəkildə edirik. Bu cür tapşırıqlarda forma və hərəkətdə dəqiqlik mühüm əhəmiyyət kəsb edir, rəng məlumatı isə ikinci dərəcəlidir. Siz həmçinin modelinizi performansını artırmaq üçün boz tonlu şəkilləri başa düşməyi öyrədə bilərsiniz, eyni zamanda YUV 4:2:0- ı giriş kimi götürsəniz, GPU-da boz tonlu şəkillər əldə etmək daha səmərəli olar, çünki nəticədə yaranan boz tonlu kanalı əldə etmək üçün yalnız təsvirin ilk hissəsini kəsməlisiniz.

AI Video Yayımında Əsas Çətinliklər

Forma rəngdən daha vacibdir

Süni intellekt modelləri, bir çox digər kompüter görmə sistemləri kimi, dəqiq rəng reproduksiyası deyil, ilk növbədə obyektin quruluşuna, formasına və kənarlarına diqqət yetirir. Bu, üzün tanınması, pozanın izlənilməsi, anomaliyaların aşkarlanması və AR effektləri üçün doğrudur. Məsələn, hərəkət tanıma sistemində bədənin piksel konturları dəri tonundan daha vacibdir.


Performans kritikdir

Real vaxt rejimində AI üçün hamar kadr sürətini ( 50–60 FPS ) saxlamaq üçün hər bir kadr 20 ms dən az müddətdə işlənməlidir. Neyroşəbəkə çərçivələri nə qədər tez qəbul edir və emal edirsə, proqram daha təbii və maye işləyir.


  • RGB formatları çox ağırdır – 1920×1080 RGBA çərçivəsinin çəkisi 8.2 MB dır, yaddaşa və emal gücünə böyük yük verir.
  • 4:2:0 xroma subsempling ilə YUV, görünən keyfiyyət itkisi olmadan hesablama resurslarına qənaət edərək, rəngi daha aşağı ayırdetmə ilə ötürməklə O(1) -də lazımsız məlumatları azaldır.


Optimallaşdırılmış GPU Emalı

Müasir GPU-lar YUV emalı üçün yüksək dərəcədə optimallaşdırılmışdır, yəni biz şəkilləri RGB-yə çevirmədən işləyə bilərik. Bu, lazımsız hesablamaları aradan qaldırır və emal sürətini artırır.


Bant genişliyi və yaddaşa qənaət

Məlumatların ölçüsünü azaltmaq real vaxt rejimində video ötürülməsi və işlənməsi üçün vacibdir:


  • Yayımda, YUV 4:2:0 istifadə edərək, keyfiyyət itkisi nəzərəçarpacaq dərəcədə itki olmadan məlumat ötürülməsini 50% azaldır.
  • Süni intellektdə modellər VRAM-a və hesablama gücünə qənaət edərək sıxılmış məlumatları RGB- ə şişirtmədən emal edə bilər.

Nəticə

Dürüst olaq - RGB açıq seçim kimi görünür. Bu, kameralar, ekranlar və kompüter qrafikasında standartdır. Ancaq real dünyada video axını və AI inteqrasiyasına gəldikdə, RGB ləng dinozavrlara çevrilir. Sonra YUV keyfiyyət, sürət və məlumat səmərəliliyinin mükəmməl balansını təklif edərək rinqə çıxır. Onun ağıllı saxlama sistemi (parlaqlığı sıxılmış rəngdən ayırır) RGB- də hesablama kabusu ola biləcək şeylərə imkan verir.


  • Daha az məlumat = daha çox sürət. Heç kim real vaxt rejimində video emalını yavaşlatmaq üçün əlavə meqabayt istəmir.
  • Göz hiylənin fərqinə varmır . Beynimiz kiçik rəng itkilərinə deyil, formaya diqqət yetirir - YUV bundan tam istifadə edir.
  • Süni intellekt rəng nüanslarına deyil, FPS-yə əhəmiyyət verir . Hər kadra cəmi 16 ms olduqda, YUV lazımsız hesablamaları aradan qaldırır və resurslara qənaət edir.
  • GPU-lar YUV-ni sevirlər . Aparat tərəfindən sürətləndirilmiş kodeklər, sürətli hesablamalar və minimal format çevrilmələri—yüksək performanslı video üçün lazım olan hər şey.

Yekun hökm

RGB əladır – lakin real vaxt performansı və AI-nin iştirak etdiyi yerdə deyil. Video axınında YUV əsl işgüzardır və illərdir əsas həlləri gücləndirir.


Beləliklə, hələ də RGB-nin kral olduğunu düşünürsənsə, yenidən düşünməyin vaxtı gəldi. Video formatları çoxdan öz qaydaları ilə oynanılır.