Mga may-akda:
(1) Albert Gu, Machine Learning Department, Carnegie Mellon University at may pantay na kontribusyon;
(2) Tri Dao, Departamento ng Computer Science, Princeton University at may pantay na kontribusyon.
2 Mga Modelo ng Kalawakan ng Estado
3 Selective State Space Models at 3.1 Pagganyak: Pagpili bilang Paraan ng Compression
3.2 Pagpapabuti ng mga SSM na may Pinili
3.3 Mahusay na Pagpapatupad ng Selective SSMs
3.4 Isang Pinasimpleng Arkitektura ng SSM
3.5 Mga Katangian ng Mekanismo ng Pagpili
3.6 Karagdagang Detalye ng Modelo
4 Empirical Evaluation at 4.1 Sintetikong Gawain
4.4 Pagmomodelo at Pagbuo ng Audio
4.5 Mga Benchmark ng Bilis at Memorya
Isang Pagtalakay: Mekanismo ng Pagpili
D Hardware-aware Algorithm Para sa Selective SSMs
E Mga Detalye ng Eksperimental at Karagdagang Resulta
Ang mga modelo ng pundasyon, na ngayon ay nagpapagana sa karamihan ng mga kapana-panabik na aplikasyon sa malalim na pag-aaral, ay halos lahat ay nakabatay sa arkitektura ng Transformer at sa pangunahing module ng atensyon nito. Maraming mga subquadratic-time na arkitektura tulad ng linear attention, gated convolution at paulit-ulit na mga modelo, at structured state space models (SSMs) ang binuo upang matugunan ang computational inefficiency ng Transformers sa mahabang pagkakasunud-sunod, ngunit hindi sila gumanap nang kasing-husay ng pansin sa mahahalagang modalidad tulad ng bilang wika. Tinutukoy namin na ang isang pangunahing kahinaan ng naturang mga modelo ay ang kanilang kawalan ng kakayahan na magsagawa ng pangangatwiran na batay sa nilalaman, at gumawa ng ilang mga pagpapabuti. Una, hinahayaan lamang ang mga parameter ng SSM na maging function ng input na tumutugon sa kanilang kahinaan na may mga discrete modalities, na nagpapahintulot sa modelo na piliing magpalaganap o makalimot ng impormasyon kasama ang dimensyon ng haba ng sequence depende sa kasalukuyang token. Pangalawa, kahit na pinipigilan ng pagbabagong ito ang paggamit ng mga mahusay na convolution, nagdidisenyo kami ng parallel algorithm na may alam sa hardware sa paulit-ulit na mode. Isinasama namin ang mga piling SSM na ito sa isang pinasimple na end-to-end na arkitektura ng neural network nang walang pansin o kahit na mga MLP block (Mamba). Tinatangkilik ng Mamba ang mabilis na inference (5x na mas mataas na throughput kaysa sa mga Transformer) at linear scaling sa haba ng pagkakasunud-sunod, at ang pagganap nito ay bumubuti sa totoong data hanggang sa mga sequence na may milyong haba. Bilang backbone ng pangkalahatang sequence model, nakakamit ng Mamba ang makabagong pagganap sa ilang mga modalidad gaya ng wika, audio, at genomics. Sa pagmomodelo ng wika, ang aming Mamba-3B na modelo ay higit na gumaganap sa mga Transformer na may parehong laki at tumutugma sa mga Transformer nang dalawang beses sa laki nito, kapwa sa pretraining at downstream na pagsusuri.
Ang mga foundation model (FM), o malalaking modelo na na-pretrained sa napakalaking data pagkatapos ay inangkop para sa mga downstream na gawain, ay lumitaw bilang isang epektibong paradigm sa modernong machine learning. Ang backbone ng mga FM na ito ay madalas na mga modelo ng pagkakasunud-sunod, na tumatakbo sa mga arbitrary na pagkakasunud-sunod ng mga input mula sa isang malawak na iba't ibang mga domain tulad ng wika, mga imahe, pagsasalita, audio, time series, at genomics (Brown et al. 2020; Dosovitskiy et al. 2020; Ismail Fawaz et al. 2019; Sutskever, Vinyals, at Quoc V Le 2014). Bagama't agnostiko ang konseptong ito sa isang partikular na pagpipilian ng arkitektura ng modelo, ang mga modernong FM ay pangunahing nakabatay sa iisang uri ng sequence model: ang Transformer (Vaswani et al. 2017) at ang core attention layer nito (Bahdanau, Cho, and Bengio 2015) Ang Ang pagiging epektibo ng pansin sa sarili ay nauugnay sa kakayahang magruta ng impormasyon nang masinsinan sa loob ng isang window ng konteksto, na nagpapahintulot dito na magmodelo ng kumplikadong data. Gayunpaman, ang property na ito ay nagdudulot ng mga pangunahing disbentaha: isang kawalan ng kakayahang magmodelo ng anuman sa labas ng isang may hangganang window, at quadratic scaling na may kinalaman sa haba ng window. Ang isang napakalaking pangkat ng pananaliksik ay lumitaw sa mas mahusay na mga variant ng atensyon upang malampasan ang mga kakulangan na ito (Tay, Dehghani, Bahri, et al. 2022), ngunit kadalasan sa kapinsalaan ng mismong mga katangian na ginagawang epektibo. Sa ngayon, wala sa mga variant na ito ang naipakita na empirically epektibo sa laki sa mga domain.
Kamakailan, ang structured state space sequence models (SSMs) (Gu, Goel, at Ré 2022; Gu, Johnson, Goel, et al. 2021) ay lumitaw bilang isang magandang klase ng mga arkitektura para sa sequence modelling. Ang mga modelong ito ay maaaring bigyang-kahulugan bilang isang kumbinasyon ng mga paulit-ulit na neural network (RNNs) at convolutional neural network (CNNs), na may inspirasyon mula sa mga klasikal na modelo ng espasyo ng estado (Kalman 1960). Ang klase ng mga modelong ito ay maaaring kalkulahin nang napakahusay bilang alinman sa pag-ulit o convolution, na may linear o malapit-linear na scaling sa haba ng pagkakasunud-sunod. Bukod pa rito, mayroon silang mga prinsipyong mekanismo para sa pagmomodelo ng mga long-range na dependency (Gu, Dao, et al. 2020) sa ilang partikular na data modalities, at nangingibabaw ang mga benchmark gaya ng Long Range Arena (Tay, Dehghani, Abnar, et al. 2021). Maraming lasa ng mga SSM (Gu, Goel, at Ré 2022; Gu, Gupta, et al. 2022; Gupta, Gu, at Berant 2022; Y. Li et al. 2023; Ma et al. 2023; Orvieto et al. 2023; Smith, Warrington, and Linderman 2023) ay naging matagumpay sa mga domain na kinasasangkutan ng tuluy-tuloy na data ng signal tulad ng bilang audio at vision (Goel et al. 2022; Nguyen, Goel, et al. 2022; Saon, Gupta, and Cui 2023). Gayunpaman, hindi gaanong epektibo ang mga ito sa pagmomodelo ng discrete at siksik na impormasyon na data gaya ng text.
Iminumungkahi namin ang isang bagong klase ng mga pumipili na modelo ng espasyo ng estado, na nagpapabuti sa naunang gawain sa ilang mga axes upang makamit ang kapangyarihan ng pagmomodelo ng mga Transformer habang lumi-scale nang linear sa haba ng pagkakasunud-sunod.
Mekanismo ng Pagpili. Una, tinutukoy namin ang isang pangunahing limitasyon ng mga naunang modelo: ang kakayahang pumili ng data nang mahusay sa paraang nakadepende sa input (ibig sabihin, tumuon sa o huwag pansinin ang mga partikular na input). Pagbuo sa intuwisyon batay sa mahahalagang gawaing gawa ng tao tulad ng selective copy at induction head, nagdidisenyo kami ng simpleng mekanismo ng pagpili sa pamamagitan ng pag-parameter sa mga parameter ng SSM batay sa input. Nagbibigay-daan ito sa modelo na i-filter ang hindi nauugnay na impormasyon at tandaan ang nauugnay na impormasyon nang walang katapusan.
Hardware-aware Algorithm. Ang simpleng pagbabagong ito ay nagdudulot ng teknikal na hamon para sa pagkalkula ng modelo; sa katunayan, ang lahat ng mga naunang modelo ng SSM ay dapat na time- at input-invariant upang maging mahusay sa computation. Napagtatagumpayan namin ito gamit ang isang algorithm na may kamalayan sa hardware na kino-compute ang modelo nang paulit-ulit gamit ang isang pag-scan sa halip na convolution, ngunit hindi natutupad ang pinalawak na estado upang maiwasan ang pag-access sa IO sa pagitan ng iba't ibang antas ng hierarchy ng memorya ng GPU. Ang resultang pagpapatupad ay mas mabilis kaysa sa mga nakaraang pamamaraan pareho sa teorya (pag-scale nang linear sa haba ng sequence, kumpara sa pseudo-linear para sa lahat ng convolution-based na SSM) at sa modernong hardware (hanggang sa 3x na mas mabilis sa A100 GPUs).
Arkitektura . Pinapasimple namin ang mga naunang arkitektura ng modelo ng deep sequence sa pamamagitan ng pagsasama-sama ng disenyo ng mga naunang arkitektura ng SSM (Dao, Fu, Saab, et al. 2023) kasama ang MLP block ng Transformers sa isang bloke, na humahantong sa isang simple at homogenous na disenyo ng arkitektura (Mamba) na isinasama puwang ng mga puwang ng estado.
Ang mga piling SSM, at sa pamamagitan ng extension ng arkitektura ng Mamba, ay ganap na paulit-ulit na mga modelo na may mga pangunahing katangian na ginagawang angkop ang mga ito bilang backbone ng mga pangkalahatang modelo ng pundasyon na tumatakbo sa mga pagkakasunud-sunod. (i) Mataas na kalidad: ang pagpili ay nagdudulot ng malakas na pagganap sa mga siksik na modalidad tulad ng wika at genomics. (ii) Mabilis na pagsasanay at hinuha: ang computation at memory scale ay linearly sa sequence length habang nagsasanay, at ang pag-unroll ng modelo nang autoregressive sa panahon ng inference ay nangangailangan lamang ng pare-parehong oras bawat hakbang dahil hindi ito nangangailangan ng cache ng mga nakaraang elemento. (iii) Mahabang konteksto: ang kalidad at kahusayan na magkasama ay nagbubunga ng mga pagpapahusay sa pagganap sa totoong data hanggang sa haba ng pagkakasunud-sunod na 1M.
Empirikal naming pinapatunayan ang potensyal ng Mamba bilang isang pangkalahatang sequence na backbone ng FM, sa parehong kalidad ng pretraining at pagganap ng gawain na partikular sa domain, sa ilang uri ng mga modalidad at setting:
• Synthetics. Sa mahahalagang gawaing gawa ng tao gaya ng pagkopya at mga induction head na iminungkahi bilang susi sa malalaking modelo ng wika, hindi lang madaling niresolba ng Mamba ang mga ito ngunit nagagawa nitong i-extrapolate ang mga solusyon nang walang katapusan (>1M token).
• Audio at Genomics. Mamba out-perform ang mga naunang makabagong modelo gaya ng SaShiMi, Hyena, at Transformers sa pagmomodelo ng mga audio waveform at DNA sequence, kapwa sa kalidad ng pretraining at downstream na sukatan (hal. pagbabawas ng FID sa isang mapaghamong set ng pagbuo ng speech ng higit sa kalahati ). Sa parehong mga setting, ang pagganap nito ay bumubuti nang may mas mahabang konteksto hanggang sa milyong-haba na mga pagkakasunud-sunod.
• Pagmomodelo ng Wika. Ang Mamba ay ang unang linear-time na sequence model na tunay na nakakamit ng Transformer-kalidad na pagganap, kapwa sa pretraining perplexity at downstream na mga pagsusuri. Sa pag-scale ng mga batas hanggang sa 1B na mga parameter, ipinapakita namin na ang Mamba ay lumampas sa pagganap ng isang malaking hanay ng mga baseline, kabilang ang napakalakas na modernong mga recipe ng pagsasanay ng Transformer batay sa LLaMa (Touvron et al. 2023). Ang aming modelo ng wikang Mamba ay may 5x na henerasyong throughput kumpara sa Mga Transformer na may katulad na laki, at ang kalidad ng Mamba-3B ay tumutugma sa mga Transformer nang dalawang beses sa laki nito (hal. ).
Ang papel na ito ay makukuha sa arxiv sa ilalim ng CC BY 4.0 DEED na lisensya.