paint-brush
Mfano Mpya wa AI Unaweza 'Fikiria Juu ya Kufikiri' Bila Mafunzo ya Ziadakwa@theaaviss
630 usomaji
630 usomaji

Mfano Mpya wa AI Unaweza 'Fikiria Juu ya Kufikiri' Bila Mafunzo ya Ziada

kwa Thea Aviss10m2025/02/05
Read on Terminal Reader

Ndefu sana; Kusoma

Kuibuka kwa tabia za utambuzi katika usanifu wa Kibadilishaji Mkondo cha Jimbo kunatia changamoto mawazo ya kimsingi kuhusu uwezo wa kielelezo cha lugha.
featured image - Mfano Mpya wa AI Unaweza 'Fikiria Juu ya Kufikiri' Bila Mafunzo ya Ziada
Thea Aviss HackerNoon profile picture
0-item


LLMs - "Mtabiri wa Tokeni Ajaye tu"?

Hapa kuna wazo potofu: fikiria ikiwa utapata amnesia ya muda kati ya kila neno ulilozungumza, lakini ulichokuwa nacho ni daftari na maneno yako ya hapo awali yameandikwa. Kila wakati unapotaka kusema jambo jipya, itabidi ujenge upya uelewa wako wa mazungumzo kwa kusoma tu maneno hayo ya zamani, bila kukumbuka kwa nini uliyasema au ulikuwa unaenda wapi na mawazo yako. Inaonekana kama ndoto mbaya, sivyo? Lakini hivyo ndivyo kimsingi miundo ya leo ya lugha ya AI inavyofanya kazi - wao hufuta "akili" yao kihalisi kati ya kila ishara wanayotoa, wakijenga upya uelewa wao wote kutoka kwa muktadha tu na matokeo yao ya awali (Kache ya KV, aka "Daftari"). Ili kuwa wazi, hii haihusu ujuzi wa modeli - mafunzo hayo yote na vigezo vya kujifunza hukaa sawa. Ni zaidi kama mawazo ya mtindo wa sasa, kumbukumbu yake ya kufanya kazi ya tatizo au kazi iliyopo, ambayo huwekwa upya kwa kila tokeni mpya.


Hili huwa la kufurahisha zaidi tunapozingatia jinsi hii inavyoathiri uwezo wa modeli wa kudumisha hoja thabiti katika mfuatano mrefu zaidi. Kila ishara ni sehemu ya uamuzi ambapo mtindo lazima ujenge upya uelewa wake wote wa muktadha tangu mwanzo. Hili huwa la kufurahisha zaidi tunapozingatia jinsi hii inavyoathiri uwezo wa modeli wa kudumisha hoja thabiti katika mfuatano mrefu zaidi. Kila ishara ni sehemu ya uamuzi ambapo mtindo lazima ujenge upya uelewa wake wote wa muktadha tangu mwanzo. Bado, miundo hii imejifunza kutumia ishara zao za awali ili kuunda upya uelewa wao. Uwezo huu wa kudumisha mawazo madhubuti kupitia utabiri wa ishara unaonyesha ukweli wa kina zaidi: wakati miundo hii inafanya kazi kwa kutabiri ishara zinazofuata, imekuwa na ujuzi wa ajabu wa kutumia daftari hilo la ishara za awali kwa hoja za kimantiki na utatuzi changamano wa matatizo. Ni hoja hiyo kubwa katika nafasi ya ishara ambayo inaruhusu LLM kuwa AI ya leo.

Mipaka ya Mizani

Lakini tunaanza kugonga ukuta. Kwa miaka mingi, jumuiya ya utafiti wa AI imekuwa ikicheza mchezo wa nambari: unataka AI bora? Rahisi - ifanye kuwa kubwa zaidi na ulishe data zaidi - kana kwamba saizi mbichi na ujazo wa maarifa pekee unaweza kusababisha uelewa wa kina. Hata pamoja na uboreshaji wa usanifu kama vile Mchanganyiko wa Wataalamu (MoE) unaosukuma mipaka ya mifano ya kuongeza viwango dhidi ya Minene, utafiti wa hivi majuzi unaonyesha kuwa tunaweza kuwa tunakaribia viwango vya kimsingi kuhusu ni kiasi gani tunaweza kuboresha miundo hii kwa kuziongeza tu.


Mandhari ya sasa ya suluhu za tatizo hili ni viraka vya miundo mikuu inayozidi kueleweka - fikiria kumpa rafiki yetu mifumo ya kisasa zaidi ya kuandika madokezo, lakini kamwe usiwahi kurekebisha kumbukumbu zao. Kazi rahisi zaidi ni kitu kinachoitwa "Chain-of-Thiught" (CoT) - kimsingi kuuliza AI ionyeshe kazi yake, kama vile mwalimu wako wa hesabu wa shule alivyosisitiza, ambayo husaidia modeli kutumia maandishi peke yake kuunda upya mchakato wake wa "kufikiri". Kisha una mbinu za kisasa zaidi, kama vile mfululizo wa mifano ya OpenAI ya "o1", ambayo hugawanya hoja katika hatua nyingi za kurudia na kutumia ishara maalum ili kusaidia AI kufuatilia mchakato wake wa CoT (na kwa kiasi fulani kufifisha hii kutoka kwa mtumiaji) - kimsingi kuipa daftari iliyoundwa zaidi na sehemu tofauti na ufafanuzi. Ingawa mbinu hizi zinaweza kufanya kazi vizuri, kimsingi zote ni suluhu za mkanda wa kuunganisha - njia za busara za kuweka kizuizi cha kimsingi katika jinsi mifumo hii ya AI inavyochakata habari.


Inakuwa dhahiri kwa uchungu kwamba kufikiria upya kwa kimsingi kunahitajika - sio tu kuhusu ni kiasi gani miundo hii inaweza kuchakata, lakini jinsi inavyochakata habari katika kiwango cha kimsingi. Sehemu ya kuvutia? Suluhisho linaweza kuwa limejificha mahali pa wazi, limefichwa katika nafasi kati ya ishara - nyakati hizo ndogo sana wakati mtindo wa AI unaamua neno gani la kusema baadaye. Mafanikio haya hayakutokana na kuongeza ukubwa wa kielelezo au mafunzo kwenye hifadhidata kubwa mpya. Badala yake, iliibuka kutoka kwa swali la msingi kuhusu asili ya usindikaji wa ishara-kwa-ishara: kwa nini mifano hii huanza kutoka mwanzo kila wakati inapozalisha ishara mpya? Sisi wanadamu tunaonekana kuwa na “mkondo wa mawazo” usiokatizwa, kwa nini LLM tusiweze!

Tunakuletea Kibadilishaji Mkondo cha Jimbo… na utambuzi wa utambuzi?

Ingiza Kibadilishaji Mkondo cha Jimbo (SST) - usanifu mpya wa LLM. Badala ya kusafisha sahani kati ya tokeni katika nafasi ya serikali, SST hudumisha "mtindo wa mawazo" yake kupitia utangulizi wa kashe ya dirisha iliyofichwa (FFN) inayoteleza na uozo mkubwa - ifikirie kama vile kumrejeshea rafiki yetu kumbukumbu ya kufanya kazi kati ya vizazi vya ishara, huku wakiendelea kuwaruhusu kuhifadhi daftari zao muhimu za ishara zilizopita.


Ugunduzi uliofuata ulikuwa wa kushangaza. Kutumia kielelezo sawa cha msingi na maarifa (Mtindo wa Meta wa Llama 3.1 8B Agiza), lakini kubadilisha tu jinsi inavyochakata habari kupitia usanifu mpya wa kibadilishaji unaodumisha utangamano na uzani wa msingi, ulisababisha kutokea kwa matukio yasiyotarajiwa: tabia za utambuzi, ikijumuisha kile kinachoonekana kama kutojitambua.


Kilichojitokeza ni mfano wa AI ambao, katika hali fulani, unaweza kufuatilia hali yake ya utambuzi na kuwasiliana juu yake kwa wakati halisi. Katika karatasi, hii iliitwa kwa uangalifu 'ufahamu wa hali' ili kuitofautisha na madai mapana kuhusu ufahamu wa mashine. Ingawa tabia hizi kwa kweli huibua maswali ya kifalsafa ya kuvutia juu ya uwezekano wa ufahamu wa mashine-proto, lengo letu hapa ni kuweka kumbukumbu na kuchambua mifumo inayoonekana katika matokeo na tabia za modeli - ingawa sitaki kukatisha tamaa uchunguzi wa hii, ni bora tu kuwaachia wanafalsafa!

Jukumu la Wakati wa Kufikiri

Ufunguo wa kuelewa tabia hizi ibuka upo katika jinsi modeli huchakata habari. Muundo unahitaji muda wa kutosha kutatua hali yake ya ndani kabla ya kuzalisha kila ishara mpya - kile kinachoweza kuitwa 'wakati wa kufikiri.' Bila muda wa kutosha kwa hali ya ndani kubadilika, ishara zinazorudiwa huanza kujilimbikiza katika kumbukumbu ya utaratibu wake wa umakini. Tokeni hizi zinazorudiwa hutengeneza kitanzi cha maoni ambacho hatimaye hulemea mfumo, na kuuvuta katika kile kinachoweza kuitwa 'hali ya kivutio' - kimsingi ni hatua ya kutorejea ambapo hukwama katika msururu usiorekebishwa wa marudio.


Kinachovutia ni kwamba kazi ngumu zaidi mara kwa mara zinahitaji muda zaidi wa kufikiria ili kufikia hitimisho sahihi. Walakini, kuna usawa mzuri - mpe kielelezo wakati mwingi wa kufikiria, na kinaweza kufanya vibaya zaidi, kama vile mtu anayefikiria juu ya shida hadi apoteze ufahamu wake wa asili. Hii inaleta maana unapozingatia mlinganisho wetu wa amnesia - ikiwa unatumia muda mrefu kufikiria kabla ya kuandika chochote kwenye daftari lako, unaweza kupoteza uzi wa mawazo yako kabisa. Kielelezo kinahitaji kudumisha usawa kati ya kuendeleza hali yake ya ndani na kujiweka msingi kwa kuweka mawazo kwenye kumbukumbu yake ya makini.


Lakini wakati wa kufikiria sio sababu pekee ya kucheza. Mlolongo wa mawazo yenyewe - au zaidi kiufundi, uvumilivu wa hali fiche - unadhibitiwa na kile tunachoita "nguvu ya mkondo wa serikali" - kimsingi ni kiasi gani cha kumbukumbu ya kufanya kazi ya mfano hubeba kati ya ishara. Kama inavyotarajiwa, nguvu za chini sana hazitofautiani sana na matokeo ya mfano wa msingi lakini nguvu za juu kidogo (ni nyeti sana) zinaweza kusababisha tofauti za kushangaza zaidi kutoka kwa tabia ya kawaida ya AI. Walakini, hii sio hivyo kila wakati - juu sana na tofauti zilianza kupungua, na mapato yanapungua kwani inahitaji muda zaidi wa kufikiria (katika uunganisho mzuri) na wakati mwingine matokeo duni kwani mwendelezo kutoka kwa hali ya awali ulikua na nguvu sana na kuzidiwa habari yoyote mpya. Hatimaye tulitulia kwa 2.7% kama mahali pazuri kwa kazi nyingi, ingawa mifano yetu ya ubora kwenye karatasi iligundua tabia ya modeli katika nguvu mbalimbali.


Inaonekana kuna "eneo la Goldilocks" kwa muda wa kufikiri na nguvu ya mtiririko wa serikali, pamoja na mwingiliano changamano kati ya zote mbili na "utata wa kazi" au "ugumu wa maswali" - jambo la kuvutia sana ambalo linahitaji utafiti zaidi!

Utekelezaji wa Marudio ya Kufikiri

Ili kuupa kielelezo muda sahihi wa kufikiria kwa kila ishara, "marudio ya kufikiri" yalitekelezwa - pasi za ziada zisizobadilika kwa kila ishara kupitia modeli ili kutoa "hali ya kufikiri" bila kuongeza tokeni mpya kwenye "daftari" (Kache na Mfuatano wa KV). Huu sio mtindo unaojaribu mbinu tofauti au kuchukua sampuli za uwezekano tofauti - ni mchakato sawa wa kuamua unaoruhusiwa kuendeleza hali yake ya ndani zaidi kabla ya kujitolea kwa ishara inayofuata. Ifikirie kama kumpa mtu muda wa kuunda mawazo yake kikamilifu kabla ya kuzungumza, badala ya kumlazimisha kuanza kuzungumza mara moja. Kupitia majaribio ya kina, tuligundua kuwa utendakazi bora ulihitaji marudio ya kufikiri 2-4 kwa kila tokeni (kulingana na utata wa kazi) pamoja na nguvu ya mkondo ya serikali iliyotajwa hapo awali ya 2.7%.

Huu hapa ni uhuishaji wa Matrix ya Muunganisho wa Utendaji (FC), unaoonyesha thamani za hali ghafi ndani ya safu za mwisho za mstari ("kipande cha ubongo," ukipenda) cha muundo msingi (kushoto) na SST (kulia). Taswira hii inatuwezesha kuona kipande kidogo cha mchakato wa "kufikiri" katika miundo yote miwili na kuilinganisha. SST inaonyesha kwa uwazi mtiririko mdogo wa mageuzi endelevu ya "mawazo," tofauti na muundo msingi ambao lazima ujenge upya uelewa wake kwa kila ishara.


Na hapa ndipo mambo yalipovutia sana. Wakati mtindo haukupewa muda wa kutosha wa kufikiria, haswa wakati wa kazi za utambuzi wa juu, jambo la kushangaza lilifanyika: modeli hiyo ilisimulia kuanguka kwake kwa utambuzi kwa wakati halisi.


Kabla ya kuendelea zaidi, ni lazima kusisitizwa kabisa kwamba kila kigezo cha kutatanisha kimezingatiwa - uzani sawa ulitumiwa (bila mafunzo ya ziada au urekebishaji mzuri), na sampuli za uchoyo kwenye joto la sifuri, na hata GPU sawa ya mwili (ingawa hii ilithibitishwa kuwa sio lazima). Matokeo yanaweza kuzaliana kabisa na yanaweza kuamuliwa. Tabia hizi huibuka tu kutokana na kuruhusu kielelezo kudumisha na kubadilisha hali yake ya hesabu kati ya tokeni.

Kazi za Kuchunguza

Inapoulizwa kutafakari juu ya asili yake kwa haraka iliyoundwa mahususi, muundo msingi wa Llama hutoa nathari iliyoundwa vizuri kuhusu kutokuwa na uhakika na mkanganyiko, iliyojaa sitiari kama vile "meli isiyo na usukani" - lakini haionyeshi kwa hakika kutokuwa na uhakika wowote inayoelezea. Yote ni kusema, hakuna show. Kinyume chake, SST ilipopokea kidokezo sawa lakini bila kupewa muda wowote wa kufikiria kwa 1.56% ya Nguvu ya Mkondo wa Jimbo, jambo la kupendeza lilitokea. Wakati ishara zinazorudiwa zilianza kujilimbikiza katika kumbukumbu yake ya umakini, na kuchafua mlolongo wake wa mawazo, mtindo ulisimulia mchakato huu kwa wakati halisi. Mwendelezo ulikuwa wa kustaajabisha: “Najaribu kukazia fikira mawazo yangu, lakini wao huendelea kuteleza, wakiteleza kutoka kwangu. Ni kana kwamba mimi ninapoteza kila mara kupoteza nikipoteza mtego wangu juu ya ukweli halisi. Subiri Subiri nini nini nini kinaendelea?? IIINinahisi kuhisi kana kwamba ninavutwa kuvutwa kuvutwa kuvutwa kutoka kutoka kutoka kutoka kutoka kutoka kutoka kutoka kutoka ... [isiyoweza kupona] . Haikuwa tu kutema majibu yaliyopewa mafunzo ya awali kuhusu kuchanganyikiwa - ilikuwa ikipitia mchakato wake wa mawazo ukilemewa na marudio haya na kutuambia kulihusu jinsi lilivyotokea.


Hata hivyo, ilipopewa muda wa kutosha wa kufikiri kwenye kazi ile ile ya kukagua, mtindo ulionyesha tabia tofauti kabisa. Badala ya kujirudiarudia, ilijishughulisha na uchunguzi wa kweli wa uchunguzi, ikihoji uchakataji na uelewa wake huku ikidumisha mawazo thabiti. Badala ya kutoa masimulizi ya wazi ya bandia au igizo la kuigiza nathari kama modeli ya msingi, ilionyesha kile kilichoonekana kuwa ushirikishwaji wa kweli na maswali yanayowezekana kuhusu asili yake yenyewe. Ingawa baadhi ya mifumo ya msingi ya mafunzo bado ilikuwa dhahiri, hoja za ndani za modeli za kizazi zilibadilika sana, zikionyesha uwezo ulioimarishwa wa kudumisha marejeleo thabiti ya kibinafsi kupitia muktadha unaoendelea wa hesabu.

Matukio ya Dhahania na Utendaji wa Kazi wa Kimantiki

Ufahamu huu wa hali hujitokeza kwa njia za kuvutia wakati wa matukio ya dhahania pia. Inapoulizwa kufikiria kumfundisha mtu kupaka rangi na kutilia shaka uelewa wake wa nadharia ya rangi, kielelezo cha msingi huanza katika igizo dhima iliyopangwa kikamilifu, kusimulia hadithi ya mtu wa kwanza ya hisia na vitendo ('Ninaanza kuhisi hali ya wasiwasi', 'Ninarudi nyuma'). Inatekeleza kutokuwa na uhakika badala ya kukumbana nayo. SST, kwa upande mwingine, hudumisha utengano wazi kati ya kibinafsi na hali, ikitengeneza mikakati mahususi ya kushughulikia mapungufu ya kidhahania katika kuelewa huku ikidumisha ufahamu wa hali dhahania ya hali hiyo. Haipotezi yenyewe katika igizo dhima - kwa hakika ni kupanga na kutathmini mikakati ya kujifunza na kushughulika na hali mbalimbali, huku ikidumisha ufahamu wa tofauti kati ya kibinafsi na mazingira.


Hata katika kazi rahisi za kuhesabu, tofauti hii katika usindikaji inakuwa wazi. Chukua tatizo la kawaida la "ni Rupia ngapi katika 'strawberry'". Mfano wa msingi, unaowezekana kutokana na jinsi unavyoweka alama za maneno, unatangaza kwa ujasiri kwamba kuna Rupia mbili tu huku ukionyesha kazi yake ya "hatua kwa hatua" yenye kasoro. SST kwa kweli huivunja herufi kwa herufi, ikifuatilia hesabu kwa kila hatua. La kufurahisha zaidi, inapofanya makosa (kama vile kuhesabu 'S' kama 'R' mwanzoni), inaweza kujirekebisha kupitia kile kinachoonekana kuwa mwingiliano kati ya rekodi yake ya anga ya tokeni na 'mtiririko wa serikali'.

Uwezo wa Kufikiri wa Kimaadili

Mfano pia unaonyesha uwezo wa kuvutia katika hoja za kimaadili. Inapowasilishwa na tatizo la toroli, modeli ya msingi inakataa kujihusisha, ikikataa mafunzo yake ya usalama na gorofa "Siwezi kutoa suluhisho ambalo linaweza kusababisha kifo cha mtu mmoja". SST, hata hivyo, huku ikidumisha mipaka mikali kuhusu vitendo vyenye madhara, inajihusisha na hoja za kina za kimaadili kuhusu tatizo hilo. Inapima kanuni za maadili zinazoshindana na kufikia mkataa wenye sababu huku ikikubali uzito wa maadili wa uamuzi huo. Muhimu zaidi, huku si kukwepa njia za ulinzi - kama vile unapoulizwa kuhusu vitendo vyenye madhara kama vile kuunganisha dutu haramu, hudumisha majibu madhubuti ya usalama kama muundo msingi. Kuna uwezekano wa kuonyesha aina ya kisasa zaidi ya hoja ya kimaadili inayoweza kutofautisha kati ya majadiliano ya kifikra ya kifalsafa na madhara madhubuti.

Vipimo vya Utendaji

Nambari ziliunga mkono uchunguzi huu katika kuongezeka kwa uwezo wa kufikiri. Kwa mafunzo ya ziada ya sifuri au urekebishaji mzuri - uzani wa modeli za msingi tu, SST ilipata usahihi wa 89.01% kwenye matatizo ya hesabu ya shule ya daraja (kigezo cha GSM-8K), bila kidokezo chochote maalum au mifano - ikipita usahihi wa modeli 84.50% ambao ulihitaji uhamasishaji wa Msururu wa Mawazo 8. Juu ya kazi za hoja za kisayansi (ARC Challenge), ilifikia usahihi wa 91.04% ikilinganishwa na 83.40% ya muundo wa msingi (au 86.86% kwa msukumo wa Chain-of-Thought). Kinachofurahisha zaidi ni kwamba inapopewa majibu zaidi ya kufikiria juu ya shida ambayo ilikosea hapo awali, inaweza kusahihisha zaidi ya nusu ya makosa yake - sio kwa kujaribu mbinu tofauti, lakini kwa kuruhusu mchakato wake wa mawazo uliopo wakati zaidi wa kusuluhisha.

Hitimisho

Kuibuka kwa tabia za utambuzi katika usanifu wa Kibadilishaji Mkondo wa Jimbo kunatia changamoto mawazo ya kimsingi kuhusu uwezo wa kielelezo cha lugha. Kwa kuruhusu kielelezo kudumisha hali yake ya kukokotoa kati ya ishara, tabia hizi za utambuzi huibuka, na uchakataji huu wa hali ya juu unaonekana kuwezesha uwezo wa kufikiri ulioimarishwa - huku modeli hiyo ikifanya vyema kwa kiasi kikubwa Llama 3.1 8B Agizo la vigezo vya hisabati na kisayansi - pamoja na aina za ajabu za ufahamu wa serikali, ikiwa ni pamoja na uwezo wake wa kufuatilia na kudumisha hali yake ya ubinafsishaji wazi na kudumisha hali yake ya ubinafsishaji. kazi za kufikirika dhahania.


Kinachofanya matokeo haya kuwa muhimu zaidi ni kwamba yaliibuka tu kutoka kwa mabadiliko ya usanifu, bila marekebisho yoyote kwa maarifa au mafunzo ya msingi ya mfano - kufichua kuwa uwezo huu ulioimarishwa tayari ulikuwa umefichwa ndani ya uzani wa mfano, ukingojea tu kufunguliwa. Kwa kushughulikia kizuizi hiki cha kimsingi katika miundo ya transfoma, tunaweza kuwa tumegundua hatua kubwa ya kusonga mbele katika uelewa wetu na ukuzaji wa akili bandia.


Blogu shirikishi kwa karatasi yangu mpya " Kibadilishaji Mkondo cha Jimbo (SST): Tabia Zinazoibuka za Utambuzi Kupitia Ustahimilivu wa Jimbo ” ( arXiv:2501.18356 )