ስለምንታይ ገለ ናይ AI ሞዴላት ካብ ካልኦት ዝቐልጠፉ

Batching5m2025/02/24
Read on Terminal Reader

ኣዝዩ ነዊሕ፤ ንምንባብ

እዚ ክፍሊ እዚ ንመደምደምታ AI ንምምሕያሽ ዝሕግዙ ቁልፊ ሜላታት ይግምግም፣ ንሳቶም ድማ ኳንታይዜሽን፣ ስፍሕ ዝበለ ኣቓልቦ፣ ግምታዊ ዲኮዲንግን ገጅድ ኣቓልቦን ይርከብዎም። እዞም ኣገባባት ንብቕዓት ከማሓይሹ እንከለዉ፡ ክልተኣዊ ኣቓልቦ ብፍሉይ ንKV cache memory IO ዒላማ ብምግባር፡ ኣብ ልዑል-ጉጅለ፡ ነዊሕ-ዓውደ-ጽሑፍ ስናርዮታት ንሓቀኛ ግዜ መተግበሪታት ምድንጓይ ይንክዮ።
featured image - ስለምንታይ ገለ ናይ AI ሞዴላት ካብ ካልኦት ዝቐልጠፉ
Batching HackerNoon profile picture
0-item

ጸሓፍቲ፤

(1) ቤን ኣቲዋራትኩን፡ AWS AI Labs፤

(2) ሱጃን ኩማር ጎኑጎንድላ፡ AWS AI Labs፤

(3) ሳንጃይ ክሪሽና ጎውዳ፡ AWS AI Labs፤

(4) ሃይፈንግ ቅያን፡ AWS AI Labs፤

(5) ሳንጃይ ክሪሽና ጎውዳ፡ AWS AI Labs፤

(6) ሃንቲያን ዲንግ፡ AWS AI Labs፤

(7) ቺንግ ሳን፡ ኤውኤስ ኤኣይ ላብስ፤

(8) ጁን ዋንግ፡ AWS AI Labs፤

(9) ጂያቸንግ ጉኦ፡ AWS AI Labs፤

(10 ሊያንግፉ ቸን፡ AWS AI Labs፤

(11) ፓርሚንደር ባቲያ፡ ጂኢ ሄልዝኬር (ኣብ AWS ዝተሰርሐ ስራሕ)፤

(12) ራሜሽ ናላፓቲ፡ ኣማዞን ኤጂኣይ (ኣብ AWS ዝተሰርሐ ስራሕ)፤

(13) ሱዲፕታ ሰንጉፕታ፡ AWS AI Labs፤

(14) ቢንግ ሺያንግ፡ ጎልድማን ሳክስ (ኣብ AWS ዝተሰርሐ ስራሕ)።

ሰሌዳ መላግቦታት

ጽማቝ ጽሑፍን 1 መእተዊን።

2. ተዛማዲ ስራሕ

3. ድሕረ ባይታ

3.1.1. ምልክት ምልክትን 3.2. ቋንቋ ሞዴል መደምደምታ

3.3. ብዙሕ ሕቶታት፣ ብዙሕ ርእሲን ሓፈሻዊ ብዙሕ ሕቶታት ዘለዎ ኣቓልቦን።

4. ዓውደ-ጽሑፍ-ዝነቕሐ ክልተኣዊ ኣቓልቦን 4.1. ምልዕዓል

4.2.2. ምቕማጥን 4.3. ናይ ዝኽሪ IO ውስብስብነት

5. ፈተነታት

5.1.1. ዓቕሚታት ብዙሕ ርእሲ፣ ብዙሕ ሕቶታትን ብዙሕ ጉጅለታትን ኣቓልቦ ምውድዳር

5.2.2. ላቴንሲስ ናይ ዓቕሚ-ማዕረ ሞዴላት

5.3. መመልከቲታት

6. መደምደምታን መወከሲታትን


ሀ/ ሕቶታት ዝቐርብ ሕቶታት

ለ/ ተዛማዲ ስራሕ

ሐ.ኣወዳድባ

መ.ብዙሕ ጉጅለታት ኣቓልቦ ስድራቤት

ሠ.ዓውደ-ጽሑፍ-ዝነቕሐ ክልተኣዊ ኣቓልቦ

ረ.ኣፕሊኬሽናት፡ ተወሳኺ ውጽኢት

ሰ.ምስ ስፔኩላቲቭ ዲኮዲንግን ፋስት ዲኮዲንግን ሜላታት ምትእስሳር

2. ተዛማዲ ስራሕ

ኣብ ስነ-ጽሑፍ፡ ንመደምደምታ ምድንጓይን/ወይ ምድንጓይን ንምምሕያሽ ብዙሓት መንገድታት ኣለዉ። ቁጽሪ ምግባር ከም int8, int4, fp8 ዝኣመሰሉ ትሑት ቢትስፍሓት ዘለዎም ውክልናታት ብምጥቃም ኣጠቓቕማ መዘክር ይቕንስ (Wei et al., 2023; Yao et al., 2022; Dettmers et al., 2022; Frantar et al., 2022; Kuzmin et al., 2022; Xiao et al., 2022)። ቁጽሪ ምግባር ንሞዴል መለክዒታት ጥራይ ክውዕል ከሎ ከምቲ ምስ ነዊሕ መስርዕ ንውሓትን ዓበይቲ ዕስለ ዓቐናትን ዝቕንስ ውጽኢት የቕርብ ኣብኡ ምስ ነጥቢ-ፍርያት ኣቓልቦ ዝተኣሳሰር መዘክር ምብጻሕን ምሕሳብን ኣብ ሓፈሻዊ መደምደምታ ምድንጓይ ይዕብለል።

ስፍሕ ዝበለ ኣቓልቦ (Beltagy et al., 2020; Child et al., 2019; Zaheer et al., 2020) ንነዊሕ ዓውድታትን ዝቐልጠፈ መደምደምታን ዝተሓላለኸ ኣቓልቦ ንምንካይ ዝሕግዝ መንገዲ ምዃኑ ብሰፊሑ ተጽኒዑ እዩ። ፖፕን ካልኦትን. (2022) ኣብ ላቴንሲን ሞዴል FLOPs ኣጠቓቕማን ፓሬቶ ዶብ ንምዕዋት ንTPUs (collective einsum) ዝተመቻቸወ ብዙሕ-መዳይ ምክፍፋል ሜላታት ብምጥቃም ናይ ዓበይቲ ቋንቋ ሞዴላት ጀነሬቲቭ ኢንፈርንስ ብቕዓት ይምርምር። እቲ ጽሑፍ ብተወሳኺ ኣብ ትሕቲ ልዑል ዕስለ ስፍሓት ኣብ ብቕዓት ብምትኳር ክሳብ 32x ዝዓበየ ንውሓት ዓውደ-ጽሑፍ ምዕባይ ከም ዘኽእል ብዙሕ ሕቶታት ኣቓልቦ ከም ዘፍቅድ ይሕብር። Paged attention (Kwon et al., 2023) ንናይ KV cache ኣብ ብሎክ ብምክፋልን ንዕላማታት ካርታ ብሎክ ሰንጠረዥ ብምጥቃምን ምሕደራ መዘክር የዕብዮ። እዚ ኣገባብ እዚ ብውጽኢታዊ መንገዲ ዳይናሚክ ጽዕነት ስራሕ ምቅይያር ዘተኣናግድን ብመገዲ ምክፋል ናይቲ ፕሮምፕት KV cache ኣብ ልዕሊ ብዙሓት ውጽኢት መስርዕ ንጠለባት መኽዘን መዘክር ይቕንሶ። እዚ ግን ንባባት መዘክር ናይ KV cache ኣይቅንሶን እዩ።


ስፔኩላቲቭ ዲኮዲንግ፣ ከምኡ’ውን ፍልልያቱ ንእሽተይ ረቂቕ ሞዴል ተጠቒሙ ብዙሓት ተኸታታሊ ቶከናት ይሓስብ፣ እዚኦም ድማ ከምዚኦም ዝበሉ ቶከናት ንምቕባል ወይ ንምንጻግ ብቐንዲ ሞዴል ብማዕረ ይስርሑ (Chen et al., 2023; Leviathan et al., 2022; Li et al., 2024; Cai et al., 2024; Fu et al., 2023)። እቲ ቁልፊ ሓሳብ ኣብ ነፍሲ ወከፍ ስጉምቲ ብዙሓት ቶከናት ምፍታሕ ምኽኣል እዩ፣ በዚ ድማ ኣጠቓቕማታት መዘክር IO ናይቲ ቀንዲ ሞዴል ምጉዳል እዩ። ይኹን እምበር፡ ላቴንሲ ናይ ዲኮዲንግ ጌና ብKV cache I/O bandwidth ኣብ ዓበይቲ ዓቐናት ዓውዲ ክዕብለል እዩ፡ ኣብዚ ክልተ ዝተኸፋፈለ ኣቓልቦ ንፍጥነት ምፍታሕ ዝያዳ ከዕብዮ ይኽእል። ብሓጺሩ ወሰኽ ዲኮዲንግ ናይ ሞዴል ጽዕነት amortized memory IO ኣብ ምጉዳል ዘተኮረ ክኸውን ከሎ multi-queryን bifurcated attentionን ድማ ናይ KV cache memory IO የጉድል።

3. ድሕረ ባይታ

3.1.1. ምልክት ምልክት (notation)

ኣብ ምሉእ እቲ ወረቐት ነዚ ዝስዕብ ምልክት ንጥቀም።




3.2. ቋንቋ ሞዴል መደምደምታ

ንሞዴል ቋንቋ ብዙሓት ናይ መደምደምታ ስናርዮታት ኣለዉ፣ ንኣብነት ዕስለ መደምደምታን ንጽል-ዓውዲ ዕስለ ናሙና ምውሳድን (ስእሊ 1)። Batch inference ንብዙሓት እታዎታት ብሓባር ኣብ ሓደ ዕስለ ንሰርሓሉ፣ ንነፍሲ ወከፍ ዕስለ ኢንዴክስ ድማ ስዒቡ ዝመጽእ ቶከናት ብናጻ ነፍሪ ዝብል ጉዳይ የመልክት። ኣብቲ ስፍሓት ዕስለ 1 ዝኾነሉ ኩነታት እዚ ናብቲ ሓደ-ዓውደ-ጽሑፍ መደምደምታ ይንኪ። ካልእ ስናርዮ ድማ ኣብ ሓደ ዓውደ-ጽሑፍ ተመርኲስና ብዙሓት መስርዕ ዘመንጩሉ ንጽል-ዓውዲ ዕስለ ናሙና እዩ፣ ኣብዚ ፍልልይ ኣብ መንጎ ዕስለ መደምደምታ ጉዳይ እቲ ቅድመ-ምምላእ ንሓደ ዓውደ-ጽሑፍ ጥራይ ክግበር ኣለዎ ንKV cache ንምርካብ፣ ድሕሪኡ ናብ ካልኦት ዕስለ መዐቀኒታት ይፍኖ።


ስእሊ 1 ንኽልተ ምዕራፋት ናይ ቋንቋ ሞዴል ምድምዳም እውን የርኢ፡ (ሀ) ዓውደ-ጽሑፍ ኢንኮዲንግ ወይ ቅድመ-ምምላእን (ለ) ወሰኽ ዲኮዲንግን። እቲ ናይ ዓውዲ ኢንኮዲንግ ንሓደ ንቕድሚት ምሕላፍ የመልክት እዚ ድማ ንኹሎም ኣብቲ ዓውዲ ዝርከቡ ናይ ቶከን ቦታታት መፍትሕን ዋጋን ቴንሶራት ዝሕስብ እዩ። እቶም መፍትሕን ዋጋን ቴንሰራት ምስተቖጽሩ፡ ነዞም መፍትሕን ዋጋን ቴንሰራት ኣብ እዋን ወሰኽ ምፍታሕ ምዕራፍ ንመካኒዝም ኣቓልቦ ንኽንጥቀመሎም ንዕቅቦም፣ እዚ ድማ ብተኸታታሊ ኣብ ሓደ እዋን ሓደ ቶከን የመንጩ[2]።



ስእሊ 1፡ ስእሊ ናይቶም ክልተ ምዕራፋት ናይ ቋንቋ ሞዴል መደምደምታ፡ ማለት ዓውደ-ጽሑፍ ኢንኮዲንግን ወሰኽ ምፍታሕን፡ ከምኡ’ውን ዝተፈላለዩ ናይ መደምደምታ ስናርዮታት። ኣብ batch inference scenario ንብዙሓት እታዎታት ብሓደ ግዜ ነሰላስልን ወሰኽ ናይ ምፍታሕ ስጉምትታት ንፍጽምን ኢና። ኣብ ዕስለ መደምደምታ፡ ንኽልቲኡ ዓውደ-ጽሑፍ ኢንኮዲንግን ስዒቡ ዝመጽእ ወሰኽ ምፍታሕን ንምፍጻም፡ ብዙሓት እታዎታት ኣብ ዕስለ ንጥርንፎም። ኣብቲ ንጽል-ዓውደ-ጽሑፍ ዕስለ ናሙና ስናርዮ፡ ንዓውደ-ጽሑፍ KV መኽዘን ንምርካብ ኣብ ሓደ እታው ዓውደ-ጽሑፍ ኢንኮዲንግ ንፍጽም፡ ድሕሪኡ ወሰኽ ዲኮዲንግ (ምስ ሙቐት ናሙና) ንፍጽም፡ ዝተፈላለዩ ክኾኑ ዝኽእሉ ወለዶታት ንምርካብ።



ኣብ እዋን ምዕራፍ ኢንኮዲንግ ዓውደ-ጽሑፍ፡ ብዝሒ ስርሓት ተንሳፋፊ ነጥቢ ብተዛማዲ ምስ ስርሓት ምእታው/ምውጻእ (IO) መዘክር ልዑል ኮይኑ፡ ምስቲ ላቴንሲ ብFLOPs ዝጽሎ፡ ምስቲ ስሌት ዝተኣሳሰረ ስርዓት ዝሰማማዕ እዩ። ይኹን እምበር ኣብ እዋን ኣብ ሓደ ናይ ሕቶ ምልክት ኣቓልቦ እንገብረሉ ወሰኽ ምፍታሕ (incremental decoding) እዚ ኣብ ሓደ ብመዘክር ዝተኣሳሰረ ስርዓት ይወድቕ፣ ኣብኡ ድማ ብዝሒ ስሌት ኣብ ነፍሲ ወከፍ መዘክር መእተዊ ብግምት 1-ን-1 እዩ (ንዝርዝር ሓበሬታ ኣብ መመላእታ D.1 ርአ)። እቲ መዘክር IO ካብቲ ልዑል ባንድዊድ መዘክር (HBM) (Jia et al., 2018) ናብቲ እቲ ጭቡጥ ስሌት ዝፍጸመሉ ቅልጡፍ ኣብ ቺፕ SRAM ዝግበር ናይ ምንባብን ምጽሓፍን ስርሓት የመልክት። እቲ መዘክር IO ናይቲ ወሰኽ ዲኮዲንግ ንባዕሉ ክልተ ኣካላት ዝሓዘ እዩ፡ (1) ናይ ሞዴል መለክዒ ምጽዓንን (2) ናይ KV ካሸ ጽዕነትን። ኣካል (1) ንውሓት ዓውደ-ጽሑፍ m ወይ ዕስለ ስፍሓት b ብዘየገድስ ቀዋሚ እዩ ኣብዚ ክፍሊ (2) ኣብ ክልቲኡ mን bን ዝምርኮስን m ወይ b ልዑል እንተኾይኑ ኣብ ሓፈሻዊ መዘክር IO ዝዕብለልን እዩ፣ እዚ ድማ ንመደምደምታ ርኡይ ዕንቅፋት ክኸውን ይኽእል። ስራሕና ብቐንዱ ኣብ ምንካይ ባእታ (2) ዘተኮረ እዩ።



Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks