Uthorsazyjylar:
(1) Raphaël Millière, Makkari uniwersitetiniň Filosofiýa bölümi ([email protected]);
(2) Kameron Bakner, Hýuston uniwersitetiniň filosofiýa bölümi ([email protected]).
Salgylar tablisasy
2. LLM-lerde başlangyç
2.2. Transformator esasly LLM-ler
3. Klassiki filosofiki meseleler bilen interfeýs
3.3. Dili düşünmek we esaslandyrmak
3.5. Medeni bilimleriň we lingwistik skafyň ýaýramagy
4. Jemleme, Sözlük we salgylanmalar
2.1. Taryhy esaslar
Uly dil modelleriniň gelip çykyşyny AI gözleginiň başlanmagyndan alyp bolar. Tebigy dilleri gaýtadan işlemegiň irki taryhy (NLP) iki bäsdeş paradigmanyň arasynda simwoliki we stohastik çemeleşmeleriň arasynda bölünişik bilen tapawutlandy. NLP-de simwoliki paradigma esasy täsir Noam Çomskiniň üýtgeýän generator grammatikasy (Çomskiý 1957) bolup, tebigy dilleriň sintaksisini gowy döredilen sözlemler döredýän resmi düzgünler toplumy bilen ele alyp boljakdygyny öňe sürdi. Çomskiniň işi, lingwistik teoriýany sözlemleri öz böleklerine bölmek üçin ulanýan düzgüne esaslanýan sintaktik derňewçileriň ösmegine esas döretdi. Winogradyň SHRDLU (Winograd 1971) ýaly irki gepleşik NLP ulgamlary, ulanyjynyň girişini gaýtadan işlemek üçin çylşyrymly düzgünler toplumy bolan sintaktik derňewçileri talap edýärdi.
Muňa ugurdaşlykda, stohastik paradigma Klod Şannonyň maglumat teoriýasynyň täsiri astyndaky matematik Warren Wewer ýaly gözlegçiler tarapyndan öňe sürüldi. Wewer 1949-njy ýylda ýazylan memorandumda statistiki usullary ulanýan maşyn terjimesi üçin kompýuterleri ulanmagy teklip etdi (Weaver 1955). Bu iş, korpusda söz birikmeleriniň syn edilýän ýygylyklaryna esaslanýan söz yzygiderliliginiň ähtimallygyna baha berýän n-gram modelleri ýaly statistiki dil modelleriniň ösmegine ýol açdy (Jelinek 1998). Ilkibaşda, stohastik paradigma NLP-ä simwoliki çemeleşmelerden yza galyp, çäkli programmalary bolan oýunjak modellerinde diňe üstünlik gazandy.
Häzirki zaman dil modellerine barýan ýolda ýene bir möhüm teoretiki basgançak, dilçi Zellig Harris tarapyndan 1950-nji ýyllarda (Harris 1954) teklip edilen paýlaýyş gipotezasydyr. Bu pikir, lingwistik birlikleriň ulgamyň beýleki bölümleri bilen bilelikde işlemegiň nusgalary arkaly many alýandygyny öňe sürýän diliň gurluş gurluşy nukdaýnazaryndan esaslandy. Harris sözüň manysynyň paýlanyş aýratynlyklaryny ýa-da ýüze çykýan mazmunyny gözden geçirip boljakdygyny aýdypdyr. Firth (1957), Wittgenşteýniň (1953) many-mazmun düşünjesiniň dil manysyna düşünmekde ähmiýetini bellemek üçin “Sözüni saklaýan kompaniýa tarapyndan bir söz bilersiň” şygary bilen ýerlikli jemledi.
Paýlaýyş gipotezasy boýunça gözlegleriň dowam etmegi bilen alymlar söz manylaryny köp ölçegli giňişlikde wektor hökmünde görkezmek mümkinçiligini öwrenip başladylar 1. Bu ugurda irki empirik iş psihologiýadan gelip çykyp, sözleriň manysyny walent we güýç ýaly dürli ölçegler boýunça gözden geçirdi (Osgood 1952). Bu eser köp ölçegli wektor giňişliginde many aňlatmak ideýasyny girizen hem bolsa, lingwistik korpusyň paýlanyş aýratynlyklaryny seljermek däl-de, dürli terezilerdäki (mysal üçin, gowy - erbet) söz baglanyşyklary barada aç-açan gatnaşyjylara baha berdi. Maglumat gözleginde soňraky gözlegler, ýokary ölçegli wektor giňişliklerinde resminamalary we sözleri wektor hökmünde görkezmek üçin awtomatlaşdyrylan usullary ösdürip, maglumatlary dolandyrýan çemeleşme bilen wektor esasly wekilçilikleri birleşdirdi (Salton we başg. 1975).
Onýyllyklaryň dowamynda geçirilen synag gözleglerinden soň, bu pikirler emeli nerw ulgamlaryny ulanyp, söz ornaşdyrmak modelleriniň ösmegi bilen kämillik ýaşyna ýetdi (Benjio we başg. 2000). Bu modeller, sözleriň paýlanyş aýratynlyklaryny, sözüň özüni ýa-da tersine sözüň mazmunyny çaklamak üçin nerw ulgamyny öwretmek arkaly öwrenip boljakdygyna esaslanýar. N-gram modelleri ýaly öňki statistiki usullardan tapawutlylykda, söz ornaşdyrmak modelleri sözleri dykyz, pes ölçegli wektor şekillendirişine kodlaýar (1-nji surat). Alnan wektor giňişligi, ýönekeý bilelikde ýüze çykýan statistikalardan başga manyly lingwistik gatnaşyklar baradaky maglumatlary gorap saklamak bilen lingwistik maglumatlaryň ölçeglerini düýpgöter peseldýär. Aýratyn-da, sözleriň arasyndaky köp semantik we sintaktik gatnaşyklar, söz ornaşdyrmak modelleriniň wektor giňişliginde çyzykly gurluşlarda öz beýanyny tapýar. Mysal üçin, Word2Vec (Mikolow we başg. 2013) söz ornaşdyrylmagynyň semantik we sintaktik yzygiderliligi alyp biljekdigini görkezdi, wektor giňişliginde kodlanan gizlin dil gurluşyny açýan ýönekeý wektor arifmetikasy arkaly söz analogiýasy meselelerini çözmek ukyby şaýatlyk edýär (meselem, 𝑘𝑖𝑛𝑔 + 𝑤𝑜𝑚𝑎𝑛 - 𝑚𝑎𝑛 ≈ 𝑞𝑢𝑒𝑒𝑛, ýa-da 𝑤𝑎𝑙𝑘𝑖𝑛𝑔 𝑤𝑎𝑙𝑘𝑒𝑑) 𝑤𝑎𝑙𝑘𝑒𝑑 𝑤𝑎𝑙𝑘𝑒𝑑.
Söz ornaşdyrmak modelleriniň ösüşi, uly korpusda statistiki paýlanyşyna esaslanyp, üznüksiz wektor giňişliginde lingwistik birlikleri görkezmegiň güýçli we täsirli serişdesini üpjün edip, NLP taryhynda öwrülişik nokady boldy. Şeýle-de bolsa, bu modelleriň birnäçe möhüm çäklendirmeleri bar. Ilki bilen, polizemiýany we gomonimiýany ele alyp bilmeýärler, sebäbi a
kontekste esaslanýan many üýtgemelerini hasaba alyp bilmeýän her söz görnüşine ýeke ýa-da “statik” goýmak; meselem, “kenara” derýanyň kenaryna ýa-da maliýe guramasyna degişlidigine garamazdan özboluşly ornaşdyrmak berilýär. Ikinjiden, sözleriň arasyndaky çylşyrymly gatnaşyklary modellemek ukybyny çäklendirýän ýekeje gizlin gatlakly “çuň” emeli nerw tor arhitekturasyna bil baglaýarlar. Netijede, aýratyn sözler derejesinde dili aňlatmak üçin döredilen, sözlemler, sözlemler we abzaslar ýaly çylşyrymly lingwistik aňlatmalara laýyk gelmeýär. Sözlemdäki her sözüň ortaça ornuny tutup, sözlemi wektor hökmünde görkezmek mümkin bolsa-da, söz tertibinde şöhlelenýän kompozisiýa gurluşy barada maglumatlary ýitirýändigi sebäpli sözlem derejesini aňlatmagyň gaty pes usulydyr. Başga sözler bilen aýdylanda, söz ornaşdyrmak modelleri diňe dili “söz haltasy” hökmünde kabul edýär; mysal üçin, “kanun kitaby” we “kitap kanuny” tertipsiz set 'a', 'kitap', 'kanun'} ýaly birmeňzeş seredilýär.
Saýlaw sözlerini ornaşdyrmak modelleriniň kemçilikleri, gaýtalanýan nerw ulgamlaryna (RNN) we uzak möhletli ýat (LSTM) (Hochreiter & Schmidhuber 1997) we derwezeli gaýtalanýan birlik (GRU) (Cho et al. 2014) “çuň” dil modelleriniň girizilmegi bilen çözüldi. Bu çuňňur nerw ulgamynyň arhitekturasy, aýratyn, aýry-aýry sözleri däl-de, wagtyň geçmegi bilen giriş yzygiderliligini ýatda saklamaga we gaýtadan işlemäge mümkinçilik berýän ýada meňzeş mehanizmi öz içine alýar. Söz goýmak modellerinden bu artykmaçlyga garamazdan, öz çäklendirmelerinden ejir çekýärler: tekstiň uzyn yzygiderliligi bilen türgenleşmäge we göreşmäge haýal. Bu meseleler Vaswani we başgalar tarapyndan Transformator arhitekturasynyň girizilmegi bilen çözüldi. Döwrebap LLM-leriň düýbüni tutan (2017).
Bu kagyz, CC BY 4.0 DEED ygtyýarnamasy boýunça arxiv-de elýeterlidir .