Qillqirinaka:
(1) Raphaël Millière, Departamento de Filosofía, Macquarie jach’a yatiqañ utan ([email protected]);
(2) Cameron Buckner, Departamento de Filosofía, Houston jach’a yatiqañ utan ([email protected]).
Tabla de Enlaces ukax mä juk’a pachanakanwa
2. LLMs ukanakat mä primera
2.1.1.1. Fundamentos históricos ukanaka
2.2.2.2.1. LLMs ukanakax transformador ukan uñt’atawa
3. Cuestiones filosóficas clásicos ukanakampi chikachasiña
3.1.1.1. Composición ukax mä juk’a pachanakanwa
3.2.2.1. Nativismo ukat arut yatxataña
3.3.3.3. Aru amuyaña ukhamaraki uraqiru ch’amanchaña
3.5. Yatiñanaka cultural ukhamaraki andamio lingüístico ukanaka yatiyaña
4. Tukuyañataki, Glosario ukat Referencias ukanaka
2.1.1.1. Fundamentos históricos ukanaka
Jach’a arut modelos ukan uñstawipax AI ukan yatxatäwi qalltawitpach uñt’ayasispawa. Nayra sarnaqäwix procesamiento de lenguas naturales (PNL) ukax pä paradigmas competitivos ukanakan cisma ukamp uñacht’ayatawa: enfoque simbólico ukat estocástico. Mä jach’a ch’amanchawix paradigma simbólico PNL ukanx Noam Chomsky jupan gramática transformacional-generativa (Chomsky 1957) ukawa, ukax sintaxis de lenguas naturales ukax mä conjunto de normas formales ukampiw katjasispa, ukax suma wakicht’at aruchjanak uñstayaspa sasaw qhanañchi. Chomsky jupan lurawipax parsadores sintácticos basados en regla ukan uñstayañatakiw cimiento uñstayäna, ukax teoría lingüística ukarux aprovecha, oraciones ukanakax constituyentes partes ukar jaljañataki. Nayra aruskipañ sistemas PNL, kunjamatix Winograd SHRDLU (Winograd 1971), ukax sintáctico parsers ukaruw munasïna, ukax mä complejo conjunto de normas ad hoc ukampiw apnaqirin amuyunakap uñakipañataki.
Uka kipkaraki, paradigma estocástico ukax yatxatirinakan nayrïr irpiripawa, kunjamakitix matemático Warren Weaver, jupax Claude Shannon teoría de información ukampiw ch’amanchasiwayi. Mä memorando qillqt’ata 1949 maranxa, Weaver jupax computadoras ukanaka apnaqañ amtäna, maquina jaqukipañataki, técnicas estadísticas ukanakampi (Weaver 1955). Aka lurawix modelos estadísticos de lenguas ukanakan lurañatakiw thakhi jist’arawayi, kunjamatix modelos n-gramos, ukax mä corpus ukan arunak mayacht’asiñ frecuencias observadas ukarjam arut secuencias ukan utjatapat jakthapi (Jelinek 1998). Ukampirus qalltanx paradigma estocástico ukax PNL ukan enfoques simbólicos ukanakat qhipharuw qhiparäna, ukax modelos de juguetes ukanx mä juk’a aplicaciones ukanx mä juk’a askinak uñacht’ayi.
Yaqha wakiskir thakhi teórico ukax jichha pacha modelos de lenguas ukar thakhinx hipótesis distribucional satawa, ukax nayrïr kutiw lingüista Zellig Harris jupax 1950 maran uñacht’ayäna (Harris 1954). Aka amuyunakax aru tuqit estructuralista uñakipañ tuqitw uñt’ayasïna, ukax unidades lingüísticas ukax sistema ukan yaqha unidades ukanakamp chikt’at uñstañ uñacht’äwinakap tuqiw significado jikxatapxi sasaw qhanañchi. Harris jupax chiqpachanx mä arun amuyupax propiedades distributivas ukanakat uñakipt’asaw amuyt’asispa, jan ukax contextos ukanx uñsti sasaw amuyt’ayäna. Firth (1957) jupax aka hipótesis ukarux “Empresa ukanx mä aru uñt’añamawa” uka consigna ukampiw sum qhanañcht’i, Wittgenstein (1953) jupan significado-como-uso uka amuyunakapan ch’amanchawip uñt’ayi, contexto ukax significado lingüístico amuyañatakix wali wakiskiriwa.
Kunjamatixa hipótesis distribucional uka tuqita yatxatawixa nayraru sartaski, yatxatirinakaxa aru amuyunakaxa vectores ukhama uñacht ayañatakixa mä espacio multidimensional ukanxa yatxatañ qalltapxäna 1. Aka tuqina nayrïri lurawi empírico ukaxa psicología ukata juti, ukatxa kunaymana dimensiones ukanakana arunakan amuyupa uñakipataraki, sañäni, valencia ukhamaraki potencia (Osgood 1952). Aka lurawix mä espacio vectorial multidimensional ukan significado uñacht’ayañ amuyu uñt’ayawaykchisa, kunayman escalanakan (jan ukax suma–jan wali) arunakan connotaciones ukanakat chikancht’asirinakan qhana calificacionanakaparuw atinisi, janiw mä corpus lingüístico ukan propiedades distributivas ukanakat uñakipañakiti. Qhipa yatxatawi yatiyawi apsuñatakixa vector-based representaciones ukampi mä datos-driven uñakipañampi mayachatawa, técnicas automáticas ukanakawa lurasi, documentos ukatxa arunaka vectores ukhama uñacht’ayañataki espacios vectoriales alto dimensionales ukanakana (Salton et al. 1975).
Tunka maranaka yant’awi yatxatawi tukuyatatxa, uka amuyunakax qhipharux jilïr jaqiruw puri, modelos de incrustación de palabras ukanakan lurawipampi, redes neuronales artificiales ukanakamp apnaqasa (Bengio et al. 2000). Aka modelos ukax amuyunakaparjamawa, arunakan propiedades distributivas ukanakax mä red neural ukar yatichasaw yatiqasispa, mä arun contexto ukar yatiyañatakix pachpa aru churata, jan ukax viceversa. Nayra yatxatawi thakhinakaxa n-gramos ukanakampixa, modelos de incrustación de palabras ukanakaxa arunakaruxa codifican representaciones vectoriales densas, baja dimensionales ukanakaru (Fig. 1). Uka apsutax espacio vectorial ukax dimensionalidad de datos lingüísticos ukaruw sinti jisk’acharaki, ukampirus estadísticas de co-ocurrencia simples ukat sipanx significativos relaciones lingüísticas ukanakat yatiyawinak jark’aqaraki. Qhanpachanx walja arunakan semántico ukat sintáctico ukanakax subestructuras lineales ukanw uñacht ayata, ukax espacio vectorial ukanx modelos de incrustación de palabras ukanx uñacht ayatawa. Amuyt’añataki, Word2Vec (Mikolov ukat yaqhanakampi 2013) uñacht’ayiwa, aru ch’amanchawix regularidades semánticas ukat sintácticas ukanakaruw katjasispa, kunjamatix uñacht’ayaskiw arut analogía lurawinakap askichañ yatiñampi, aritmética vectorial simple ukampiw uñacht’ayasi, ukax estructura lingüística latente codificada espacio vectorial ukan uñacht’ayi (jan ukax, θθ+ λλλλλλληννννννς ≈ θιν ≈ θν θλλληηνννο θλλινννννο Ukaxa mä ≈ λλλλληνν).
Modelos de incrustación de palabras ukan lurawipax PNL ukan sarnaqäwipanx mä turkakipäwiw uñacht’ayi, ukax mä ch’aman ukhamarak suma thakhiw unidades lingüísticas ukanakar mä espacio vectorial continuo ukan uñacht’ayañataki, ukax distribución estadística ukarjam mä jach’a corpus ukan uñacht’ayañataki. Ukampirus uka modelonakax walja jach’a limitaciones ukaniwa. Nayraqatxa, janiw polisemia ukat homonimia ukanak katjañ yatipkiti, kunatix a
sapa aru kastaru sapa jan ukax “estático” uñt’ayaña, ukax janiw contexto ukarjam amuyun mayjt’awinakaparux qhanañchkaspati; sañäni, “banco” ukax mä sapa incrustación ukaw churataraki, jawir thiyaru jan ukax qullqituqit institución ukar uñt’ayasa. Payïri, jupanakax arquitecturas de red neural artificial “profunda” ukanakaruw mä sapa imantat capa ukamp atinisipxi, ukax arunak taypin complejas relaciones ukanakar modelo ukham lurañ yatipxataparuw limita. Tukuyañatakix, sapa arunak nivel ukan aru uñacht’ayañatakiw luratätapatxa, janiw sumäkiti, expresión lingüística compleja ukar uñtasit uñacht’ayañataki, sañäni, frases, frases ukat t’aqanaka. Mä aruchjax vector ukham uñacht’ayañax wakisispawa, sapa aru aruchjan ch’amanchatanakap promedio ukarjam uñacht’ayasa, ukampirus ukax mä jach’a jan wali thakhiwa, aruchja-nivel significado uñacht’ayañataki, kunatix estructura composición ukan yatiyawinakap chhaqhayaraki, ukax arunakan ordenan uñacht’ayatawa. Mä arunxa, modelos de incrustación de palabras ukax arut mä “bolsa de palabras” ukhamak uñjapxi; sañäni, “mä kamachi libro” ukat “mä libro kamachi” ukax jan ordenat conjunto {'a','libro','ley'} ukar uñtasitaw uñjasi.
Modelos de incrustación de palabras profundas ukan jan walt’awinakapax “manqhan” arut modelos uñstayañampiw uñjasi, redes neuronales recurrentes (RNNs) ukat variantes ukanakar kutt’añataki, kunjamatix memoria de largo corto plazo (LSTM) (Hochreiter & Schmidhuber 1997) ukat unidad recurrente gated (GRU) (Cho et al. 2014). Aka manqhankir arquitecturas de red neuronales ukanakax mä mecanismo de memoria ukar uñtasitaw uñt’ayasi, ukax secuencias de entradas ukanakax pachan pachan amtañataki ukat procesos ukar puriñapatakiw yanapt’i, sapa mayni, saparst’at arunakat sipansa. Modelos de incrustación de palabras ukanakat sipanx uka ventajax utjkchispas, jupanakax jupanakan limitaciones ukanakampiw t’aqhisiwayapxi: jupanakax jank’akiw yatiqapxi ukatx jaya secuencias de texto ukanakamp ch’am tukupxi. Aka jan walt’awinakax arquitectura Transformer ukan uñt’ayatapampix Vaswani et al. (2017), ukax jichha pacha LLMs ukanakatakix uraq uñstayawayiwa.
Aka qillqatax arxiv ukan CC BY 4.0 DEED licencia ukan uñt’ayatawa .