Mpanoratra:
(1) Albert Gu, Departemantan'ny Machine Learning, Oniversite Carnegie Mellon ary manana anjara mitovy;
(2) Tri Dao, Departemantan'ny Siansa Informatika, Oniversite Princeton ary manana anjara biriky mitovy.
2 Modely habakabakam-panjakana
3 Modely habakabaka mifantina sy 3.1 Fandrisihana: Fifantenana ho fomba fanerena
3.2 Fanatsarana ny SSM miaraka amin'ny fifantenana
3.3 Fampiharana amin'ny fomba mahomby ireo SSM voafantina
3.4 Architecture SSM Notsotsotra
3.5 Toetran'ny Mekanisma Fifidianana
3.6 Antsipirihan'ny modely fanampiny
4 Fanombanana empirika sy 4.1 Asa sintetika
4.4 Famolavolana sy famokarana feo
4.5 Hafainganam-pandeha sy fitadidiana benchmarks
Fifanakalozan-kevitra: Mekanisma fifantenana
D Algorithm-aware amin'ny Hardware ho an'ny SSM voafantina
E Ny antsipirian'ny fanandramana sy ny vokatra fanampiny
Ny architectures-friendly hardware toy ny convolutions (Krizhevsky, Sutskever, and Hinton 2012) sy Transformers (Vaswani et al. 2017) dia mankafy fampiharana miparitaka. Eto izahay dia mikendry ny hanao SSM voafantina mahomby amin'ny fitaovana maoderina (GPU) ihany koa. Ara-boajanahary tokoa ny rafitra fifantenana, ary ny asa teo aloha dia nanandrana nampiditra tranga manokana momba ny fifantenana, toy ny famelana ny ∆ hiovaova arakaraka ny fotoana amin'ny SSM miverimberina (Gu, Dao, et al. 2020). Na izany aza, araka ny voalaza teo aloha, ny fetra fototra amin'ny fampiasana SSM dia ny fahombiazan'ny kajy, ka izany no nahatonga ny S4 sy ny derivatives rehetra nampiasa modely LTI (tsy mifantina), matetika amin'ny endrika convolutions manerantany.
3.3.1 Fanentanana ireo modely teo aloha
Avereno jerena aloha io antony manosika io ary diniho ny fomba fiasantsika handresena ny fetran'ny fomba teo aloha.
• Amin'ny ambaratonga ambony, ny maodely miverimberina toy ny SSM dia mampifandanja foana ny fifanakalozam-peo eo amin'ny fanehoana sy ny hafainganam-pandeha: araka ny resahina ao amin'ny Fizarana 3.1, ireo modely manana refy miafina lehibe kokoa dia tokony hahomby kokoa fa miadana kokoa. Noho izany dia tiantsika ny hampitombo ny refin'ny fanjakana miafina nefa tsy mandoa vola amin'ny hafainganam-pandeha sy ny fitadidiana.
• Mariho fa ny fomba miverimberina dia mora kokoa noho ny fomba convolution, satria ny farany (3) dia avy amin'ny fanitarana ny teo aloha (2) (Gu, Goel, ary Ré 2022; Gu, Johnson, Goel, et al. 2021). Na izany aza, izany dia mitaky ny fikajiana sy ny fametrahana ny endrika miafina ℎ amin'ny endrika (B, L, D, N), lehibe kokoa (amin'ny anton'ny N, ny refin'ny fanjakana SSM) noho ny fampidirana x sy ny vokatra y amin'ny endrika (B, L, D). Noho izany dia nampidirina ny fomba fikoropahana mahomby kokoa izay afaka mandingana ny kajy fanjakana ary mamorona kernel iray (3a) amin'ny (B, L, D) ihany.
• Ny LTI SSM teo aloha dia mampiasa ny endrika roa miverimberina-convolutional mba hampitombo ny refin'ny fanjakana mahomby amin'ny alàlan'ny Nx (≈ 10 − 100), lehibe lavitra noho ny RNN nentim-paharazana, tsy misy sazy mahomby.
3.3.2 Overview ny Selective Scan: Hardware-Aware State Expansion
Ny rafitra fifantenana dia natao handresena ny fetran'ny modely LTI; Amin'izay fotoana izay ihany koa, mila jerena indray ny olana momba ny kajy an'ny SSM. Miresaka izany amin'ny teknika klasika telo izahay: fusion kernel, scan parallèle ary recomputation. Manao fanamarihana roa lehibe izahay:
• Ny kajy miverimberina tsy misy dikany dia mampiasa FLOP O(BLDN) raha mampiasa FLOP O(BLD log(L)) ny kajy miverimberina, ary manana anton-javatra tsy miova ambany kokoa ny voalohany. Noho izany ho an'ny filaharana lava sy ny refin'ny fanjakana tsy dia lehibe loatra N, ny fomba miverimberina dia afaka mampiasa FLOP vitsy kokoa.
• Ny fanamby roa dia ny toetran'ny fiverimberenana misesy, ary ny fampiasana fitadidiana lehibe. Mba hamahana ity farany, toy ny fomba convolutional, dia azo atao ny miezaka ny tsy ho tanteraka tanteraka ny fanjakana ℎ.
Ny hevi-dehibe dia ny fampiasana ny fananan'ny accelerators maoderina (GPU) mba hahatonga ny fanjakana ℎ amin'ny ambaratonga mahomby kokoa amin'ny ambaratongam-pahatsiarovana. Indrindra indrindra, ny ankamaroan'ny asa (afa-tsy ny matrix multiplication) dia voafehin'ny bandwidth fahatsiarovana (Dao, Fu, Ermon, et al. 2022; Ivanov et al. 2021; Williams, Waterman, and Patterson 2009). Tafiditra ao anatin'izany ny fiasan'ny scan, ary mampiasa fusion kernel izahay mba hampihenana ny habetsaky ny fahatsiarovana IOs, mitondra amin'ny hafainganam-pandeha lehibe raha oharina amin'ny fampiharana mahazatra.
Mba hisorohana ny fiverimberenan'ny sequential, dia hitantsika fa na dia tsy misy tsipika aza dia mbola azo ampitahaina amin'ny algorithm scan parallèle mahomby (Blelloch 1990; Martin sy Cundy 2018; Smith, Warrington, and Linderman 2023).
Farany, tsy maintsy misoroka ny famonjena ireo fanjakana manelanelana ihany koa isika, izay ilaina amin'ny fanaparitahana miverina. Mampihatra amim-pitandremana ny teknikan'ny recomputation mahazatra izahay mba hampihenana ny fitadidiana: tsy voatahiry ny fanjakana mpanelanelana fa averina amin'ny alàlan'ny lamosina aoriana rehefa ampidirina avy amin'ny HBM mankany SRAM ny fidirana. Vokatr'izany dia manana fitadidiana mitovy amin'ny fampiharana mpanova optimized miaraka amin'ny FlashAttention ny sosona scan selektif mitambatra.
Ao amin'ny Appendix D ny antsipirihan'ny kernel mitambatra sy ny recomputation. Ny sosona sy algorithm SSM Selective feno dia aseho amin'ny sary 1.
Ity lahatsoratra ity dia misy amin'ny arxiv eo ambanin'ny lisansa CC BY 4.0 DEED.