YUV rəng kodlaşdırma formatları ilə işləyərək onlarla yuxusuz gecə keçirdikdən sonra bu əlamətdar format haqqında nə qədər az məlumatın olduğunu başa düşdüm. Bununla belə, AI ilə P2P video axını və ya video axınlarının işlənməsi ilə məşğul olanlar üçün inanılmaz dərəcədə faydalı ola bilər.
İlk baxışdan RGB və YUV rəngi təmsil etməyin fərqli yolları kimi görünə bilər. Lakin bu fərqin altında davam edən bir döyüş dayanır: rahatlıq ilə səmərəlilik, dəqiqliklə performans, mükəmməl qavrayış və görünən itki olmadan sıxılma. Güman etmək olar ki, RGB rəng məkanlarının mübahisəsiz kralıdır - axırda kameralar, ekranlar və əksər neyron şəbəkələri orada işləyir. Bununla belə, video axını və kodlaşdırma dünyasında YUV başlıq altında gizlənərək, videoları ləngimədən izləməyə, gigabayt məlumatlara qənaət etməyə və real vaxt rejimində işləməyi sürətləndirməyə imkan verən bir sıra mürəkkəb mübadilələri gizlədir.
Bəs bu iki dünya arasında körpü yaratmaq istəsəniz nə olacaq? RGB-də təlim keçmiş AI modelləri YUV-də video axınlarını necə idarə edir? Niyə kodeklər RGB ilə işləməkdən belə çəkinirlər? Və bu formatlar arasında mükəmməl tarazlığa nail olmaq mümkündürmü? Burada mən sizə RGB və YUV-nin niyə fərqli çəki dərəcələrindən olan iki boksçuya bənzədiyini, eyni video axını və süni intellekt texnologiyasında görüşməyə məcbur olduğunu başa düşməyə kömək edəcəyəm.
RGB və RGBA formatları kifayət qədər sadədir və kompüter qrafikasında geniş istifadə olunur, ona görə də biz əsaslara çox dərindən girməyəcəyik. Qısaca desək, kompüteriniz təsviri təqdim edərkən üç kanalla işləyir - Qırmızı (R) , Yaşıl (G) və Mavi (B) . Əksər ekranlar belə işləyir.
RGBA şəffaflığa nəzarət edən əlavə bir kanal — Alpha (A) əlavə edir, bu da onu veb qrafikası və rəqəmsal dizayn üçün xüsusilə faydalı edir. RGB rəngləri təhrif olmadan dəqiq şəkildə təmsil edir, lakin onun kritik bir çatışmazlığı var - çox yer tutur. Məsələn, RGBA formatında 1920 × 1080
təsvir ölçüsü (hər kanal üçün 1 bayt istifadə etməklə) yer tutur: 1920×1080×4 = 8294400 bytes ≈ 8.2 MB
JPEG kimi sıxılmış formatlar faylın ölçüsünü azaldır, lakin P2P video axını və AI real vaxt rejimində müştərilərin maşınlarında - obyektin tanınması, açar nöqtənin aşkarlanması və seqmentasiya kimi - bu, uyğun seçim deyil. Biz sıxılma artefaktlarını təqdim etmədən və kritik detalları itirmədən real vaxt rejimində hər kadrı ötürməli və təhlil etməliyik. Keyfiyyət, səmərəlilik və performansı tarazlaşdırmaq üçün daha ağıllı yanaşma təklif edən YUV burada işə düşür.
Rəng məlumatını birbaşa saxlayan RGB-dən fərqli olaraq, YUV təsviri luma (Y) və xroma komponentlərinə (U və V) ayırır. Bu yanaşma əhəmiyyətli keyfiyyət itkisi olmadan məlumatların səmərəli sıxılmasını təmin edir.
Y (Luma, parlaqlıq) – Pikselin parlaqlığını təmsil edir, onun nə qədər açıq və ya qaranlıq göründüyünü müəyyən edir. Əslində, bu, bütün formaları və detalları qoruyan təsvirin boz rəngli (ağ-qara) versiyasıdır.
U və V (Chroma, rəng) – Rəng məlumatını, lakin daha az dəqiqliklə saxlayın, çünki insan gözü parlaqlığı rəng dəqiqliyindən daha kəskin şəkildə qəbul edir. Sadə dillə desək, bu kanallar parlaqlığın müxtəlif rəng çalarlarına doğru ikiölçülü “köçürülməsi” rolunu oynayır.
Bu ayırma YUV-nin video sıxılma, axın və AI əsaslı video emal üçün bu qədər effektiv olmasının açarıdır.
YUV-nin daha az aşkar, lakin yüksək effektiv üstünlüklərindən biri onun kanallarından birinin (Y) ümumiyyətlə rəng saxlamaq üçün nəzərdə tutulmamasıdır. Əksinə, o, dəqiq təsvir edir
İnsan gözü retinada iki növ fotoreseptordan istifadə edərək görüntüləri qəbul edir:
Çubuq hüceyrələri (~120 milyon) - Parlaqlıq və kontrasta həssasdır, lakin rəngi aşkar etmək iqtidarında deyil. Onlar bizə az işıqda belə formaları və detalları görməyə imkan verir.
Konus hüceyrələri (~6 milyon) – Rəng qavrayışından məsuldur, lakin onların sayı 20 dəfə azdır. Onlar yalnız yaxşı işıqlandırma şəraitində işləyir və üç növdə olur: qırmızı, yaşıl və mavi ( RGB , təəccüblü deyil).
Bu reseptor balanssızlığına görə beynimiz rəngdən daha çox formaya üstünlük verir. Parlaqlıq və ya kontrast pozulubsa, biz bunu dərhal görürük. Bununla belə, cüzi rəng dəyişiklikləri çox vaxt diqqətdən kənarda qalır.
Bu YUV-nin Əsas Prinsipidir
Bu o deməkdir ki, hər üç kanalın eyni dərəcədə vacib olduğu RGB -dən fərqli olaraq, YUV öz kanallarına insan qavrayışına əsasən fərqli yanaşır. Rəng məlumatları (U və V) daha az kritik olduğundan, qəbul edilən keyfiyyəti itirmədən ötürülən məlumatların miqdarını azalda bilərik.
Chroma Subsampling mexanizmi məhz belə işləyir - parlaqlığı qoruyarkən rəng məlumatını seçici şəkildə sıxaraq video kodlamasını optimallaşdırır.
Xroma subsempling təsvirdəki rəng məlumatlarının miqdarını azaltmaq üçün bir texnikadır. Hər piksel üçün rəng saxlamaq əvəzinə ( RGB- də olduğu kimi), YUV parlaqlığı (forma) toxunulmaz saxlayaraq rəng kanallarının ayırdetmə qabiliyyətini azaldır.
Xroma alt nümunəsi üçün bir neçə sənaye standartı var:
4:2:2 alt seçmə – Hər bir piksel cütü rəng məlumatını paylaşır. Göz fərqi çətinliklə hiss edir, lakin fayl ölçüsü 33% azalır. Bu üsul nadir hallarda istifadə olunur.
4:2:0 subsempling – Rəng maksimum sıxılmaya nail olmaqla dörd pikseldən yalnız bir piksel üçün saxlanılır.
Niyə 4:2:0 əsas standartdır?
Bu format görüntü keyfiyyətini nəzərəçarpacaq dərəcədə pisləşdirmədən məlumatın ölçüsünü yarıya endirir. Buna görə də, demək olar ki, bütün axın xidmətləri və video platformaları üçün əsas standartdır. Məsələn, Microsoft Teams videonu 4:2:0 nisbətində ötürür, çünki o, keyfiyyət və bant genişliyi səmərəliliyi arasında ən yaxşı tarazlığı təmin edir.
Bu quraşdırmada tək rəng dəyəri dörd pikseli təmsil edir və parlaqlıq (Y) dəyişməz qaldığından, insan gözü yaxınlaşdırıldıqda belə fərqi aşkar etmir.
1920×1080×1.5 = 3110400 bytes ≈ 3.1 MB
tək çərçivədə, bu, RGBA ilə müqayisədə məlumat ölçüsünün iki dəfədən çox azalması ilə nəticələnir - keyfiyyətdə heç bir görünən itki olmadan!
Aşağıdakı şəkil son çərçivənin/şəklin 4:2:0 xroma alt nümunəsi ilə necə göründüyünü göstərir. Bir U dörd Y-ni necə təsvir etdiyinə diqqət yetirin, 4 dəfə yaddaş qazanır!
Müasir dünyada real vaxt rejimində videoların işlənməsi üçün süni intellekt tətbiqləri sürətlə genişlənir. Neyron şəbəkələri yalnız müşahidə kameralarının təhlili və axın keyfiyyətinin artırılması üçün deyil, həm də generativ effektlər, real vaxt görünüşünün modifikasiyası, obyektin tanınması və hərəkətin izlənməsi kimi daha mürəkkəb vəzifələr üçün istifadə olunur.
Məsələn, biz video söhbətdə insanın üzünə pomada və göz kölgəsi tətbiq edən virtual makiyaj sistemi hazırladıq - bunu mümkün qədər real şəkildə edirik. Bu cür tapşırıqlarda forma və hərəkətdə dəqiqlik mühüm əhəmiyyət kəsb edir, rəng məlumatı isə ikinci dərəcəlidir. Siz həmçinin modelinizi performansını artırmaq üçün boz tonlu şəkilləri başa düşməyi öyrədə bilərsiniz, eyni zamanda YUV 4:2:0- ı giriş kimi götürsəniz, GPU-da boz tonlu şəkillər əldə etmək daha səmərəli olar, çünki nəticədə yaranan boz tonlu kanalı əldə etmək üçün yalnız təsvirin ilk hissəsini kəsməlisiniz.
Forma rəngdən daha vacibdir
Süni intellekt modelləri, bir çox digər kompüter görmə sistemləri kimi, dəqiq rəng reproduksiyası deyil, ilk növbədə obyektin quruluşuna, formasına və kənarlarına diqqət yetirir. Bu, üzün tanınması, pozanın izlənilməsi, anomaliyaların aşkarlanması və AR effektləri üçün doğrudur. Məsələn, hərəkət tanıma sistemində bədənin piksel konturları dəri tonundan daha vacibdir.
Performans kritikdir
Real vaxt rejimində AI üçün hamar kadr sürətini ( 50–60 FPS
) saxlamaq üçün hər bir kadr 20 ms
dən az müddətdə işlənməlidir. Neyroşəbəkə çərçivələri nə qədər tez qəbul edir və emal edirsə, proqram daha təbii və maye işləyir.
1920×1080
RGBA çərçivəsinin çəkisi 8.2 MB
dır, yaddaşa və emal gücünə böyük yük verir.O(1)
-də lazımsız məlumatları azaldır.
Optimallaşdırılmış GPU Emalı
Müasir GPU-lar YUV emalı üçün yüksək dərəcədə optimallaşdırılmışdır, yəni biz şəkilləri RGB-yə çevirmədən işləyə bilərik. Bu, lazımsız hesablamaları aradan qaldırır və emal sürətini artırır.
Bant genişliyi və yaddaşa qənaət
Məlumatların ölçüsünü azaltmaq real vaxt rejimində video ötürülməsi və işlənməsi üçün vacibdir:
Dürüst olaq - RGB açıq seçim kimi görünür. Bu, kameralar, ekranlar və kompüter qrafikasında standartdır. Ancaq real dünyada video axını və AI inteqrasiyasına gəldikdə, RGB ləng dinozavrlara çevrilir. Sonra YUV keyfiyyət, sürət və məlumat səmərəliliyinin mükəmməl balansını təklif edərək rinqə çıxır. Onun ağıllı saxlama sistemi (parlaqlığı sıxılmış rəngdən ayırır) RGB- də hesablama kabusu ola biləcək şeylərə imkan verir.
RGB əladır – lakin real vaxt performansı və AI-nin iştirak etdiyi yerdə deyil. Video axınında YUV əsl işgüzardır və illərdir əsas həlləri gücləndirir.
Beləliklə, hələ də RGB-nin kral olduğunu düşünürsənsə, yenidən düşünməyin vaxtı gəldi. Video formatları çoxdan öz qaydaları ilə oynanılır.