paint-brush
RGB ለ AI እና ለዥረት ጊዜ ያለፈበት ነው።@ykanavalik
385 ንባቦች
385 ንባቦች

RGB ለ AI እና ለዥረት ጊዜ ያለፈበት ነው።

Yauheni Kanavalik7m2025/02/09
Read on Terminal Reader

በጣም ረጅም፤ ማንበብ

*YUV* በP2P ቪዲዮ ዥረት ላይ ለተሳተፉ ወይም የቪዲዮ ዥረቶችን ከ AI ጋር ለሚሰሩ ሰዎች በሚያስደንቅ ሁኔታ ጠቃሚ ሊሆን ይችላል። YUV ቀዳሚውን ስፍራ ይይዛል፣ ቪዲዮዎችን ያለ መዘግየት ለመመልከት፣ ጊጋባይት ዳታ ለመቆጠብ እና የእውነተኛ ጊዜ ሂደትን ለ AI የሚያስችለንን ተከታታይ ውስብስብ የንግድ ልውውጥን በመደበቅ ነው።
featured image - RGB ለ AI እና ለዥረት ጊዜ ያለፈበት ነው።
Yauheni Kanavalik HackerNoon profile picture
0-item
1-item
2-item

YUV ቀለም ኢንኮዲንግ ቅርጸቶች ጋር በመስራት እንቅልፍ የሌላቸው በደርዘን የሚቆጠሩ ምሽቶችን ካሳለፍኩ በኋላ፣ ስለዚህ አስደናቂ ቅርጸት ምን ያህል መረጃ እንደሚገኝ ተገነዘብኩ። ሆኖም፣ በP2P ቪዲዮ ዥረት ላይ ለተሳተፉ ወይም የቪዲዮ ዥረቶችን በ AI ለሚሰሩ በሚገርም ሁኔታ ጠቃሚ ሊሆን ይችላል።


በመጀመሪያ እይታ፣ RGB እና YUV ቀለምን የሚወክሉ የተለያዩ መንገዶች ሊመስሉ ይችላሉ። ነገር ግን ከዚህ ልዩነት ስር ቀጣይነት ያለው ጦርነት አለ፡ ምቾት እና ቅልጥፍና፣ ትክክለኛነት ከአፈጻጸም ጋር፣ ፍጹም ግንዛቤ እና መጨናነቅ ያለ የሚታይ ኪሳራ። አንድ ሰው አርጂቢ የማያከራክር የቀለም ቦታዎች ንጉስ እንደሆነ ሊገምት ይችላል-ከሁሉም በኋላ ካሜራዎች ፣ ስክሪኖች እና አብዛኛዎቹ የነርቭ አውታረ መረቦች በእሱ ውስጥ ይሰራሉ። ነገር ግን በቪዲዮ ዥረት እና ኢንኮዲንግ አለም YUV ግንባር ቀደም ሆኖ በመደበቅ ተከታታይ ውስብስብ የንግድ ስራዎችን በመደበቅ ቪዲዮዎችን ያለ መዘግየት ለማየት፣ ጊጋባይት ዳታ ለመቆጠብ እና የእውነተኛ ጊዜ ሂደትን ለማፋጠን ያስችላል።


ግን እነዚህን ሁለት ዓለማት ማገናኘት ከፈለጉስ? በRGB የሰለጠኑ AI ሞዴሎች በ YUV ውስጥ የቪዲዮ ዥረቶችን እንዴት ይይዛሉ? ለምንድነው ኮዴኮች ከ RGB ጋር ለመስራት በጣም ያመነታሉ? እና በእነዚህ ቅርጸቶች መካከል ትክክለኛውን ሚዛን ማግኘት ይቻላል? እዚህ፣ ለምን RGB እና YUV እንደ ሁለት ቦክሰኞች ከተለያዩ የክብደት ክፍሎች የተውጣጡ፣ በአንድ የቪዲዮ ዥረት ቀለበት እና AI ቴክኖሎጂ ለመገናኘት የተገደዱ እንደሆኑ እንድታውቅ እረዳሃለሁ።

RGB እና YUV: ምንድን ናቸው?

የ RGB እና RGBA ቅርጸቶች በኮምፒዩተር ግራፊክስ ውስጥ በጣም ቀላል እና በሰፊው ጥቅም ላይ የዋሉ ናቸው፣ ስለዚህ ወደ መሰረታዊ ነገሮች ጠልቀን አንገባም። በአጭሩ፣ ኮምፒውተርዎ ምስል ሲሰራ በሶስት ቻናሎች ይሰራል- ቀይ (R)አረንጓዴ (ጂ) እና ሰማያዊ (ቢ) ። አብዛኛዎቹ ስክሪኖች የሚሠሩት በዚህ መንገድ ነው።


RGBA ተጨማሪ ሰርጥ ያክላል - አልፋ (A) - ግልጽነትን ይቆጣጠራል, ይህም በተለይ ለድር ግራፊክስ እና ዲጂታል ዲዛይን ጠቃሚ ያደርገዋል. RGB ቀለሞችን ያለምንም ማዛባት በትክክል ይወክላል, ነገር ግን ወሳኝ የሆነ ችግር አለው - በጣም ብዙ ቦታ ይወስዳል. ለምሳሌ በ RGBA ቅርጸት 1920 × 1080 ጥራት ያለው ምስል (በአንድ ሰርጥ 1 ባይት በመጠቀም) ይወስዳል 1920×1080×4 = 8294400 bytes ≈ 8.2 MB


RBG መዋቅር ፎቶ በ Unsplash ላይ በሚካኤል Maasen


እንደ JPEG ያሉ የተጨመቁ ቅርጸቶች የፋይል መጠንን ይቀንሳሉ፣ ነገር ግን በአለም የP2P ቪዲዮ ዥረት እና AI በደንበኞች ማሽኖች ላይ በእውነተኛ ጊዜ ሂደት - እንደ የነገር ማወቂያ፣ ቁልፍ ነጥብ ማግኘት እና ክፍፍል - ይህ አዋጭ አማራጭ አይደለም። የማመቂያ ቅርሶችን ሳናስተዋወቅ ወይም ወሳኝ ዝርዝሮችን ሳናጣ እያንዳንዱን ፍሬም በእውነተኛ ጊዜ ማስተላለፍ እና መተንተን አለብን። ጥራትን፣ ቅልጥፍናን እና አፈጻጸምን ለማመጣጠን ብልህ አቀራረብን በማቅረብ YUV ወደ ጨዋታ የሚመጣው።

YUV ምንድን ነው?

የቀለም መረጃን በቀጥታ ከሚያከማች እንደ RGB በተቃራኒ YUV ምስልን ወደ luma (Y) እና ክሮማ ክፍሎች (U እና V) ይለያል። ይህ አካሄድ ጉልህ የሆነ የጥራት መጥፋት ሳይኖር ቀልጣፋ የውሂብ መጨናነቅን ያስችላል።


Y (Luma, ብሩህነት) - የፒክሰል ብሩህነት ይወክላል, ብርሃን ወይም ጨለማ እንዴት እንደሚታይ ይወስናል. በመሠረቱ, ይህ የምስሉ ግራጫ (ጥቁር እና ነጭ) ስሪት ነው, ሁሉንም ቅርጾች እና ዝርዝሮችን ይጠብቃል.


U እና V (Chroma, ቀለም) - የቀለም መረጃን ያከማቹ ነገር ግን የሰዎች ዓይን ከቀለም ትክክለኛነት የበለጠ ብሩህነትን ስለሚገነዘብ በዝቅተኛ ትክክለኛነት። በቀላል አነጋገር፣ እነዚህ ቻናሎች እንደ ባለ ሁለት አቅጣጫ የብሩህነት “ፈረቃ” ወደ ተለያዩ የቀለም ቀለሞች ይሠራሉ።


ይህ መለያየት YUV ለቪዲዮ መጭመቂያ፣ ዥረት እና AI ላይ የተመሠረተ ቪዲዮን ለማቀናበር በጣም ውጤታማ የሆነው ለምንድነው ቁልፍ ነው።

ለምንድነው YUV ለቪዲዮ ዥረት የተሻለ የሆነው?

YUV ብዙም ግልፅ ያልሆነ ነገር ግን በጣም ውጤታማ ከሆኑት ጥቅሞች አንዱ ከሰርጦቹ (Y) ውስጥ አንዱ ቀለምን ለማከማቸት የታሰበ አለመሆኑ ነው። ይልቁንስ በትክክል ይገልፃል። ቅርጽ የነገሮች.

ይህ ከሰው እይታ ጋር እንዴት ይዛመዳል?

የሰው ዓይን በሬቲና ውስጥ ሁለት ዓይነት የፎቶሪሴፕተሮችን በመጠቀም ምስሎችን ይገነዘባል.


  • ሮድ ሴሎች (~ 120 ሚሊዮን) - ለብሩህነት እና ለንፅፅር ስሜታዊ ነገር ግን ቀለምን የመለየት ችሎታ የለውም። በዝቅተኛ ብርሃን ውስጥ እንኳን ቅርጾችን እና ዝርዝሮችን እንድንመለከት ያስችሉናል.

  • የኮን ሴሎች (~ 6 ሚሊዮን) - ለቀለም ግንዛቤ ኃላፊነት ያላቸው ግን በቁጥር 20 እጥፍ ያነሱ ናቸው። እነሱ በጥሩ የብርሃን ሁኔታዎች ውስጥ ብቻ ይሰራሉ እና በሶስት ዓይነቶች ይመጣሉ: ቀይ, አረንጓዴ እና ሰማያዊ ( አርጂቢ , በማይገርም ሁኔታ).


በዚህ ተቀባይ አለመመጣጠን ምክንያት አእምሯችን ከቀለም ይልቅ ለቅርጽ ቅድሚያ ይሰጣል። ብሩህነት ወይም ንፅፅር ከተዛባ ወዲያውኑ እናስተውላለን። ሆኖም ፣ ትንሽ የቀለም ለውጦች ብዙውን ጊዜ ሳይስተዋል ይቀራሉ።


ይህ የYUV ዋና መርህ ነው።

  • Y ቻናል (ብሩህነት) የነገሮችን ቅርጾች ለመጠበቅ አልተለወጠም ስለዚህ በአይንዎ ውስጥ ያሉ ዘንግ ሴሎች ይደሰታሉ።
  • የዩ እና ቻናሎች (የቀለም መረጃ) በእይታ የሚታዩ ቅርሶችን ሳይፈጥሩ ሊጨመቁ ይችላሉ እና ያነሱ የኮን ሴሎች ምንም ልዩነት አይታዩም።


ይህ ማለት እንደ RGB በተቃራኒ - ሦስቱም ቻናሎች እኩል ጠቀሜታ ያላቸው - YUV በሰዎች አመለካከት ላይ በመመስረት ቻናሎቹን በተለየ መንገድ ያስተናግዳል። የቀለም ውሂብ (U እና V) ብዙም ወሳኝ ስላልሆኑ፣ የሚታየውን ጥራት ሳናጣ የሚተላለፈውን ውሂብ መጠን መቀነስ እንችላለን።


የCroma Subsampling ዘዴ ልክ እንደዚህ ነው የሚሰራው — ብሩህነት እንደተጠበቀ ሆኖ የቀለም መረጃን በመምረጥ የቪዲዮ ኢንኮዲንግ ማመቻቸት።

የ Chroma ንዑስ ናሙና እንዴት የቪዲዮ ዥረት ዓለምን እንደሚያድን

Chroma ንዑስ ናሙና በምስል ላይ ያለውን የቀለም መረጃ መጠን ለመቀነስ የሚያስችል ዘዴ ነው። ለእያንዳንዱ ፒክሰል (እንደ RGB ) ቀለምን ከማጠራቀም ይልቅ YUV ብሩህነት (ቅርጽ) ሳይበላሽ ሲቆይ የቀለም ሰርጦችን ጥራት ይቀንሳል።


ለ chroma ንዑስ ናሙናዎች በርካታ የኢንዱስትሪ ደረጃዎች አሉ፡

  • 4: 2: 2 ንዑስ ናሙና - እያንዳንዱ ጥንድ ፒክስሎች የቀለም መረጃን ይጋራሉ. አይኑ ልዩነቱን አያስተውልም ፣ ግን የፋይሉ መጠን በ 33% ቀንሷል። ይህ ዘዴ በጣም አልፎ አልፎ ጥቅም ላይ ይውላል.

  • 4: 2: 0 ንዑስ ናሙና - ቀለም የሚቀመጠው ከአራት ውስጥ አንድ ፒክሰል ብቻ ነው, ይህም ከፍተኛውን መጨናነቅን ያመጣል.


ለምንድነው 4፡2፡0 ዋናው መለኪያ የሆነው?

ይህ ቅርጸት የምስል ጥራት ሳይቀንስ የውሂብ መጠን በግማሽ ይቀንሳል። ለዛም ነው ለሁሉም የሚጠጉ የዥረት አገልግሎቶች እና የቪዲዮ መድረኮች የመሄድ ደረጃ የሆነው። ለምሳሌ፣ የማይክሮሶፍት ቲሞች ቪዲዮን በ 4፡2፡0 ያስተላልፋል ምክንያቱም በጥራት እና ባንድዊድዝ ቅልጥፍና መካከል ምርጡን ሚዛን ስለሚሰጥ።


በዚህ ቅንብር አንድ ነጠላ ቀለም እሴት አራት ፒክሰሎችን ይወክላል እና የሰው ዓይን ልዩነቱን አያውቀውም - ሲጨምርም - ብሩህነት (Y) ሳይለወጥ ስለሚቆይ።


1920×1080×1.5 = 3110400 bytes ≈ 3.1 MB በአንድ ፍሬም ላይ ይህ ከ RGBA ጋር ሲነፃፀር ከሁለት እጥፍ በላይ የውሂብ መጠን ይቀንሳል - በጥራት ላይ ምንም የሚታይ ኪሳራ ሳይኖር!


ከታች ያለው ምስል የመጨረሻው ፍሬም/ምስል በ 4፡2፡0 ክሮማ ንዑስ ናሙና እንዴት እንደሚመስል ያሳያል። አንድ አራት Y እንዴት እንደሚገልፅ ልብ ይበሉ ፣ 4 ጊዜ ማህደረ ትውስታ ያሸንፋል!

6x4 ፒክስል ምስል ከ4፡2፡0 መጭመቂያ ጋር። ምስል በ Yauheni Kanavalik


ለምንድነው YUV ለ AI በጣም ጠቃሚ የሆነው?

ዛሬ ባለው ዓለም፣ ለእውነተኛ ጊዜ የቪዲዮ ማቀናበሪያ AI መተግበሪያዎች በፍጥነት እየተስፋፉ ነው። የነርቭ ኔትወርኮች ለክትትል ካሜራ ትንተና እና ለዥረት ጥራት ማሻሻያ ብቻ ሳይሆን እንደ አመንጭ ተፅእኖዎች፣ የእውነተኛ ጊዜ መልክ ማሻሻያ፣ የነገር ለይቶ ማወቅ እና እንቅስቃሴን መከታተል ላሉ ውስብስብ ስራዎችም ያገለግላሉ።


ለምሳሌ ያህል፣ በተቻለ መጠን በተጨባጭ በማድረግ በቪዲዮ ቻት በሰው ፊት ላይ የሊፕስቲክ እና የአይን ጥላ የሚተገበር ምናባዊ ሜካፕ አዘጋጅተናል። በእንደዚህ ዓይነት ተግባራት ውስጥ, የቅርጽ እና የእንቅስቃሴ ትክክለኛነት በጣም አስፈላጊ ነው, የቀለም መረጃ ሁለተኛ ደረጃ ነው. እንዲሁም አፈፃፀሙን ለማሳደግ ሞዴልዎን ግራጫማ ምስሎችን እንዲረዳ ማሰልጠን ይችላሉ ፣ በተመሳሳይ ጊዜ ግራጫማ ምስሎችን በጂፒዩ ላይ ማግኘት YUV 4: 2: 0 እንደ ግብዓት ከወሰዱ የበለጠ ቀልጣፋ ነው ፣ ምክንያቱም ውጤቱን ግራጫማ ቻናል ለማግኘት የምስሉን የመጀመሪያ ክፍል ብቻ መቁረጥ ያስፈልግዎታል ።

በ AI ቪዲዮ ዥረት ውስጥ ቁልፍ ተግዳሮቶች

ቅርፅ ከቀለም የበለጠ አስፈላጊ ነው

AI ሞዴሎች፣ ልክ እንደሌሎች የኮምፒውተር እይታ ስርዓቶች፣ በዋናነት የሚያተኩሩት ከትክክለኛው የቀለም እርባታ ይልቅ በእቃው መዋቅር፣ ቅርፅ እና ጠርዞች ላይ ነው። ይህ ለፊት ለይቶ ማወቂያ፣ ፖዝ ክትትል፣ ያልተለመደ መለየት እና የኤአር ውጤቶች እውነት ነው። ለምሳሌ፣ በእንቅስቃሴ ማወቂያ ስርዓት ውስጥ፣ የሰውነት የፒክሰል ዝርዝር ከቆዳ ቃና የበለጠ አስፈላጊ ነው።


አፈጻጸም ወሳኝ ነው።

ለእውነተኛ ጊዜ AI፣ ለስላሳ የፍሬም ፍጥነት ( 50–60 FPS ) ለማቆየት እያንዳንዱ ፍሬም ከ 20 ms በታች መከናወን አለበት። የነርቭ አውታረመረብ ክፈፎችን በፈጠነ መጠን በመቀበል እና በማስኬድ አፕሊኬሽኑ የበለጠ ተፈጥሯዊ እና ፈሳሽ ይሆናል።


  • የ RGB ቅርፀቶች በጣም ከባድ ናቸው - የ 1920×1080 RGBA ፍሬም 8.2 MB ይመዝናል ፣ ይህም በማስታወስ እና በማቀነባበር ኃይል ላይ ከፍተኛ ጫና ይፈጥራል።
  • YUV ከ4፡2፡0 ክሮማ ንኡስ ናሙና ጋር በ O(1) ውስጥ አላስፈላጊ መረጃዎችን በትንሹ ጥራት በማስተላለፍ፣የማይታይ የጥራት መጥፋት የስሌት ሀብቶችን በማስቀመጥ ይቀንሳል።


የተመቻቸ የጂፒዩ ሂደት

ዘመናዊ ጂፒዩዎች ለ YUV ሂደት በጣም የተመቻቹ ናቸው፣ ይህ ማለት ከምስሎች ጋር ወደ RGB ሳንለውጣቸው መስራት እንችላለን። ይህ አላስፈላጊ ስሌቶችን ያስወግዳል እና የሂደቱን ፍጥነት ይጨምራል።


የመተላለፊያ ይዘት እና የማህደረ ትውስታ ቁጠባዎች

ለእውነተኛ ጊዜ የቪዲዮ ስርጭት እና ሂደት የውሂብ መጠን መቀነስ ወሳኝ ነው፡-


  • በዥረት መልቀቅ ላይ፣ YUV 4:2:0 ን በመጠቀም የመረጃ ስርጭትን በ50% ይቀንሳል።
  • በ AI ውስጥ፣ ሞዴሎች የተጨመቀውን ውሂብ ወደ RGB ሳታስገቡ፣ VRAM እና የኮምፒውቲሽን ሃይልን መቆጠብ ይችላሉ።

ማጠቃለያ

እውነቱን እንነጋገር ከተባለ - RGB ግልጽ ምርጫ ይመስላል። በካሜራዎች፣ ስክሪኖች እና የኮምፒውተር ግራፊክስ ውስጥ ደረጃው ነው። ነገር ግን ወደ እውነተኛው ዓለም የቪዲዮ ዥረት እና AI ውህደት ሲመጣ፣ RGB ወደ ቀርፋፋ ዳይኖሰር ይቀየራል። ከዚያ YUV ወደ ቀለበቱ ይገባል፣ ይህም ፍጹም የሆነ የጥራት፣ የፍጥነት እና የውሂብ ቅልጥፍናን ያቀርባል። ብልህ የማከማቻ ስርዓቱ (ብሩህነትን ከተጨመቀ ቀለም የሚለይ) በ RGB ውስጥ የስሌት ቅዠት የሚሆኑ ነገሮችን ያስችላል።


  • ያነሰ ውሂብ = የበለጠ ፍጥነት። ተጨማሪ ሜጋባይት የአሁናዊ ቪዲዮ ሂደትን እንዲቀንስ ማንም አይፈልግም።
  • ዓይን ዘዴውን አያስተውልም . አእምሯችን የሚያተኩረው በቅርጽ ላይ እንጂ በትንሽ የቀለም ኪሳራ አይደለም - YUV በዚህ ሙሉ በሙሉ ይጠቀማል።
  • AI ስለ FPS ያስባል እንጂ የቀለም ልዩነት አይደለም . በአንድ ፍሬም 16 ሚሴ ብቻ ሲኖርህ፣ YUV አላስፈላጊ ስሌቶችን ያስወግዳል እና ሀብቶችን ይቆጥባል።
  • ጂፒዩዎች YUVን ይወዳሉ ። በሃርድዌር የተጣደፉ ኮዴኮች፣ ፈጣን ስሌቶች እና አነስተኛ የቅርጸት ልወጣዎች - ከፍተኛ አፈጻጸም ላለው ቪዲዮ የሚያስፈልግዎ።

የመጨረሻ ፍርድ

RGB በጣም ጥሩ ነው - ነገር ግን የእውነተኛ ጊዜ አፈጻጸም እና AI የሚሳተፉበት አይደለም። በቪዲዮ ዥረት ውስጥ፣ YUV እውነተኛው የስራ ፈረስ ነው እና ለዓመታት ዋና መፍትሄዎችን እየሰጠ ነው።


ስለዚህ፣ አሁንም RGB ንጉስ ነው ብለው የሚያስቡ ከሆነ፣ እንደገና ለማሰብ ጊዜው አሁን ነው። የቪዲዮ ቅርጸቶች በራሳቸው ደንቦች ለረጅም ጊዜ ተጫውተዋል.