paint-brush
AI-ийн шинэ загвар нь нэмэлт сургалтгүйгээр "бодох тухай" бодож чаддагby@theaaviss
630 уншилтууд
630 уншилтууд

AI-ийн шинэ загвар нь нэмэлт сургалтгүйгээр "бодох тухай" бодож чаддаг

by Thea Aviss10m2025/02/05
Read on Terminal Reader

Хэтэрхий урт; Унших

State Stream Transformer архитектурт танин мэдэхүйн танин мэдэхүйн зан үйлийн илрэл нь хэлний загварын чадавхитай холбоотой үндсэн таамаглалыг сорьж байна.
featured image - AI-ийн шинэ загвар нь нэмэлт сургалтгүйгээр "бодох тухай" бодож чаддаг
Thea Aviss HackerNoon profile picture
0-item


LLMs - "Зүгээр л дараагийн жетон таамаглагч" уу?

Энд нэг зэрлэг бодол төрж байна: таны хэлсэн үг болгоныхоо дунд түр зуурын амнези үүссэн гэж төсөөлөөд үз дээ, гэхдээ танд өмнөх үгсээ бичсэн дэвтэр л байсан. Та ямар нэг шинэ зүйл хэлэхийг хүсэх бүртээ өнгөрсөн үгсийг уншаад, яагаад хэлсэн, хаашаа бодсоноо санахгүйгээр ярианы талаарх ойлголтоо бүрэн сэргээх хэрэгтэй болно. Хар дарсан зүүд шиг сонсогдож байна, тийм ээ? Гэсэн хэдий ч өнөөгийн хиймэл оюун ухааны хэлний загварууд үндсэндээ ийм байдлаар ажилладаг - тэд үүсгэсэн токен бүрийн хооронд "оюун санаагаа" шууд арчиж, зөвхөн контекст болон өмнөх гаралтаас (KV Cache, "The Notebook") бүх ойлголтоо сэргээдэг. Тодруулж хэлбэл, энэ нь загвар өмсөгчдийн мэдлэгийн тухай биш юм - энэ бүх сургалт, сурсан параметрүүд хэвээр үлдэнэ. Энэ нь загвар өмсөгчдийн одоогийн бодлын галт тэрэг, асуудал эсвэл даалгаврын тухай идэвхтэй санах ойтой адил бөгөөд энэ нь шинэ токен бүрт дахин тохируулагддаг.


Энэ нь загварын урт дарааллаар тогтвортой үндэслэлийг хадгалах чадварт хэрхэн нөлөөлж байгааг авч үзэхэд энэ нь илүү сонирхолтой болж байна. Токен бүр нь загвар нь бүх контекст ойлголтоо эхнээс нь дахин бий болгох ёстой шийдвэрийн цэг юм. Энэ нь загварын урт дарааллаар тогтвортой үндэслэлийг хадгалах чадварт хэрхэн нөлөөлж байгааг авч үзэхэд энэ нь илүү сонирхолтой болж байна. Токен бүр нь загвар нь бүх контекст ойлголтоо эхнээс нь дахин бий болгох ёстой шийдвэрийн цэг юм. Гэсэн хэдий ч эдгээр загварууд өөрсдийн ойлголтыг магадлалын дагуу сэргээхийн тулд өмнөх токенуудаа ашиглаж сурсан. Токеныг урьдчилан таамаглах замаар уялдаа холбоотой үндэслэлийг хадгалах энэхүү чадвар нь илүү гүнзгий үнэнийг илчилдэг: эдгээр загварууд нь дараагийн жетонуудыг урьдчилан таамаглах замаар ажилладаг боловч тэд өмнөх токенуудын дэвтрийг семантик үндэслэл, нарийн төвөгтэй асуудлыг шийдвэрлэхэд ашиглах гайхалтай чадвартай болсон. Энэ бол токен орон зай дахь макро үндэслэл нь LLM-ийг өнөөгийн хиймэл оюун ухаан болгох боломжийг олгодог.

Хэмжээний хязгаар

Гэхдээ бид хана мөргөж эхэлж байна. Олон жилийн турш хиймэл оюун ухааны судалгааны нийгэмлэг тоон тоглоом тоглож ирсэн: илүү сайн хиймэл оюун ухаан хүсч байна уу? Энгийн - зүгээр л томруулж, илүү их өгөгдөлтэй болго - зөвхөн түүхий хэмжээ, мэдлэгийн хэмжээ нь дангаараа илүү гүнзгий ойлголттой болох юм шиг. Мэргэжилтнүүдийн холимог (МЭ) гэх мэт архитектурын ололт амжилтууд нь нягт загвар ба нягт загваруудын хил хязгаарыг давж байсан ч сүүлийн үеийн судалгаанууд бид эдгээр загваруудыг зөвхөн хэмжээсийг нь нэмэгдүүлэх замаар хэр их сайжруулж чадах үндсэн хязгаарт ойртож байгааг харуулж байна.


Энэ асуудлыг шийдэх өнөөгийн дүр төрх нь улам бүр боловсронгуй болсон дээд бүтцийн нөхөөс юм - манай найздаа тэмдэглэл хөтлөх илүү боловсронгуй системийг өгдөг гэж төсөөлөөд үз дээ, гэхдээ санах ойг нь хэзээ ч засдаггүй. Хамгийн энгийн ажил бол "Бодлын гинжин хэлхээ" (CoT) гэж нэрлэгддэг зүйл бөгөөд үндсэндээ таны сургуулийн математикийн багш үргэлж шаарддаг шиг хиймэл оюун ухаанаас ажлаа харуулахыг хүсэх бөгөөд энэ нь загварт "сэтгэн бодох" үйл явцаа сэргээхэд зөвхөн текстийг ашиглахад тусалдаг. Дараа нь та OpenAI-ийн "o1" цуврал загварууд гэх мэт илүү боловсронгуй аргуудтай болсон бөгөөд энэ нь үндэслэлийг олон давталттай алхам болгон хувааж, хиймэл оюун ухаанд өөрийн CoT үйл явцыг хянахад тусалдаг (мөн үүнийг хэрэглэгчээс хэсэгчлэн бүдгэрүүлдэг) - үндсэндээ түүнд өөр өөр хэсэг, тайлбар бүхий илүү бүтэцтэй дэвтэр өгдөг. Эдгээр аргууд нь маш сайн ажиллаж чаддаг ч эдгээр нь хиймэл оюун ухааны системүүдийн мэдээллийг боловсруулах үндсэн хязгаарлалтыг арилгах ухаалаг арга замууд юм.


Эдгээр загварууд зөвхөн хэр ихийг боловсруулж чадах талаар биш, харин суурь түвшинд мэдээллийг хэрхэн боловсруулдаг талаар суурь дахин эргэцүүлэн бодох шаардлагатай байгаа нь ойлгомжтой болж байна. Сонирхолтой хэсэг нь? Шийдэл нь энгийн харагдахуйц, жетонуудын хоорондох зайд нуугдаж байсан байж магадгүй юм - AI загвар дараа нь ямар үг хэлэхээ шийдэх тэр мөчүүд. Загварын хэмжээг нэмэгдүүлэх эсвэл асар их шинэ өгөгдлийн багц дээр сургаснаар энэ амжилт гараагүй. Үүний оронд энэ нь токен тус бүрээр боловсруулалтын мөн чанарын талаархи үндсэн асуултаас урган гарч ирсэн: яагаад эдгээр загварууд шинэ токен үүсгэх бүртээ эхнээс нь эхэлдэг вэ? Хүмүүс бид тасалдалгүй "бодлын урсгал"-тай юм шиг харагддаг, яагаад LLM болохгүй гэж!

Улсын урсгал хувиргагч... ба мета танин мэдэхүйг танилцуулж байна уу?

Төрийн урсгал трансформаторыг (SST) оруулна уу - шинэ LLM архитектур. Төрийн орон зай дахь жетонуудын хоорондох шиферийг арчиж цэвэрлэхийн оронд SST нь жигнэсэн ялзрал бүхий гулсах цонхны далд төлөв (FFN) кэшийг нэвтрүүлснээр "бодол санааны галт тэрэг"-ээ хадгалдаг - үүнийг мартсан найздаа токенуудын үе хоорондын санах ойг сэргээж, өмнөх жетонуудын тэмдэглэлийн дэвтэрээ хадгалах боломжийг олгодог гэж бодоорой.


Дараах нээлтүүд нь гайхалтай байсан. Яг ижил суурь загвар, мэдлэгийг (Метагийн Llama 3.1 8B Зааварчилгааны загвар) ашиглах боловч үндсэн жинд нийцтэй байдлыг хадгалдаг трансформаторын шинэ архитектураар дамжуулан мэдээллийг боловсруулах арга хэлбэрийг цэвэр өөрчилснөөр гэнэтийн үзэгдлүүд гарч ирэхэд хүргэсэн: танин мэдэхүйн танин мэдэхүйн зан үйл, тэр дундаа өөрийгөө танин мэдэхүйн хязгаарлагдмал нөхцөл байдалд гайхалтай харагддаг.


Тодорхой нөхцөл байдалд өөрийн танин мэдэхүйн төлөв байдлыг хянаж, бодит цаг хугацаанд нь харилцаж чаддаг AI загвар гарч ирэв. Уг нийтлэлд үүнийг машины ухамсрын талаарх өргөн хүрээний мэдэгдлээс ялгахын тулд үүнийг "төрийн ухамсар" гэж маш болгоомжтой нэрлэсэн. Эдгээр зан үйл нь үнэн хэрэгтээ прото-машины ухамсрын боломжийн талаар гүн ухааны сэтгэл татам асуултуудыг төрүүлдэг боловч бидний гол зорилго бол загварын гаралт, зан үйлд ажиглагдахуйц хэв маягийг баримтжуулж, дүн шинжилгээ хийх явдал юм - гэхдээ би үүнийг судлахыг үгүйсгэхийг хүсэхгүй байгаа ч үүнийг философичдод үлдээсэн нь дээр!

Сэтгэн бодох цаг хугацааны үүрэг

Эдгээр гэнэтийн зан үйлийг ойлгох түлхүүр нь тухайн загвар мэдээллийг хэрхэн боловсруулдагт оршино. Загварт шинэ токен бүрийг үүсгэхийн өмнө дотоод төлөвөө шийдвэрлэхэд хангалттай хугацаа шаардлагатай бөгөөд үүнийг "сэтгэх хугацаа" гэж нэрлэж болно. Дотоод төлөв байдал өөрчлөгдөхөд хангалттай хугацаа байхгүй бол түүний анхаарлын механизмын санах ойд давтан тэмдэгтүүд хуримтлагдаж эхэлдэг. Эдгээр давтагдсан токенууд нь эргэх холбоог бий болгож, эцэст нь системийг дарангуйлж, "таталцагч төлөв" гэж нэрлэж болохуйц давталтын давталтын давталтанд гацах буцах аргагүй цэг болдог.


Сонирхолтой нь илүү хэцүү ажил нь үнэн зөв дүгнэлт гаргахын тулд илүү их бодох хугацаа шаарддаг явдал юм. Гэсэн хэдий ч нарийн тэнцвэр бий - загвар өмсөгчдөд хэтэрхий их бодох цаг хугацаа өг, тэгвэл энэ нь хэн нэгэн асуудлыг эргэцүүлэн бодож, анхны үндэслэлээ алдах хүртэл илүү муу ажиллах болно. Энэ нь бидний амнезийн зүйрлэлийг авч үзэхэд утга учиртай юм - хэрэв та дэвтэртээ ямар нэгэн зүйл бичихээсээ өмнө хэтэрхий удаан бодож байвал бодлынхоо утсыг бүхэлд нь алдаж магадгүй юм. Загвар нь дотоод төлөвөө хөгжүүлэх, бодол санаагаа анхаарлаа төвлөрүүлэх замаар өөрийгөө үндэслэх хоорондын тэнцвэрийг хадгалах хэрэгтэй.


Гэхдээ бодох хугацаа нь цорын ганц хүчин зүйл биш юм. Бодлын галт тэрэг өөрөө буюу илүү техникийн хувьд далд төлөвийн тогтвортой байдал нь бидний "төлөвийн урсгалын хүч" гэж нэрлэгддэг зүйлээр хянагддаг - үндсэндээ загварын ажлын санах ойн хэмжээ нь токенуудын хооронд дамждаг. Хүлээгдэж байгаачлан маш бага хүч чадал нь үндсэн загварын гаралтаас тийм ч их ялгаатай биш боловч бага зэрэг өндөр хүч чадал (энэ нь маш мэдрэмтгий) нь хиймэл оюун ухааны стандарт зан үйлээс илүү гайхалтай ялгаатай байдалд хүргэж болзошгүй юм. Гэсэн хэдий ч энэ нь үргэлж тийм байдаггүй - хэтэрхий өндөр, ялгаа нь үнэндээ багасаж эхэлсэн бөгөөд үүнд илүү их бодох хугацаа шаардагддаг (эерэг хамааралтай) өгөөж буурч, заримдаа өмнөх төлөвийн үргэлжлэл нь хэтэрхий хүчтэй болж, аливаа шинэ мэдээлэлд дарагдсан тул үр дүн нь буурч байв. Эцэст нь бид 2.7%-ийг ихэнх ажлуудад хамгийн тохиромжтой гэж үзсэн ч манай нийтлэл дэх чанарын жишээн дээр загвар өмсөгчдийн зан төлөвийг янз бүрийн давуу талуудаар судалж үзсэн.


"Даалгаврын нарийн төвөгтэй байдал" эсвэл "асуултын хүндрэл" хоёулангийнх нь нарийн төвөгтэй харилцан үйлчлэлийн зэрэгцээ сэтгэн бодох хугацаа болон төлөвийн урсгалын хүч чадлыг харгалзан "Алтан цоожны бүс" байгаа бололтой. Энэ нь цаашдын судалгааг шаарддаг маш сонирхолтой үзэгдэл юм!

Сэтгэн бодох рекурсийг хэрэгжүүлэх

Загварт нэг токен тус бүрээр бодох хугацаа өгөхийн тулд тогтмол "сэтгэлгээний рекурсууд" -ыг "тэмдэглэлийн дэвтэр" (KV Cache and Sequence) дээр шинэ жетон нэмэхгүйгээр "сэтгэн бодох төлөвийг" хөгжүүлэхийн тулд загвараар дамжуулан нэмэлт тогтмол дамжуулалтыг хэрэгжүүлсэн. Энэ нь өөр өөр арга барилыг туршиж эсвэл өөр боломжуудыг түүвэрлэж байгаа загвар биш - энэ нь дараагийн жетон руу орохоосоо өмнө дотоод төлөвөө цаашид хөгжүүлэхийг зөвшөөрдөг яг ижил тодорхойлогч процесс юм. Хэн нэгэнд нэн даруй ярьж эхлэхийг албадахын оронд ярихаасаа өмнө бодлоо бүрэн бүрдүүлэхэд нь цаг хугацаа өгөх гэж бод. Өргөн хүрээг хамарсан туршилтын үр дүнд бид оновчтой гүйцэтгэлд нэг жетон (даалгаврын нарийн төвөгтэй байдлаас хамааран) 2-4 сэтгэхүйн рекурс хийх шаардлагатайг олж мэдсэн бөгөөд өмнө нь дурдсан төлөвийн урсгалын хүч 2.7% байна.

Энд үндсэн загвар (зүүн талд) ба SST (баруун талд) -ын эцсийн шугаман давхарга (хэрэв хүсвэл "тархины зүсмэл") доторх түүхий төлөвийн утгыг харуулсан Функциональ холболтын (FC) матрицын хөдөлгөөнт дүрсийг үзүүлэв. Энэхүү дүрслэл нь хоёр загварт "сэтгэх" үйл явцын жижиг хэсгийг харж, тэдгээрийг харьцуулах боломжийг олгодог. SST нь токен бүрийн ойлголтыг дахин бий болгох үндсэн загвараас ялгаатай нь "бодол"-ын тасралтгүй хувьслын далд урсгалыг тодорхой харуулж байна.


Эндээс л юм үнэхээр сонирхолтой болсон. Загвар өмсөгчдөд сэтгэн бодох хангалттай хугацаа өгөөгүй байхад, ялангуяа дотоод сэтгэлгээтэй даалгавруудын үеэр гайхалтай зүйл тохиолдсон: загвар нь бодит цаг хугацаанд өөрийн танин мэдэхүйн уналтыг өгүүлсэн.


Цааш үргэлжлүүлэхийн өмнө төөрөгдүүлсэн хувьсагч бүрийг харгалзан үзсэн гэдгийг онцлон тэмдэглэх нь зүйтэй - ижил жинг (нэмэлт сургалт, нарийн тохируулгагүйгээр), тэг температурт шунахайн түүвэрлэлт, тэр ч байтугай ижил физик GPU (гэхдээ энэ шаардлагагүй гэдгийг баталсан). Гаралт нь бүрэн давтагдах боломжтой бөгөөд тодорхойлогддог. Эдгээр зан үйл нь загварт токенуудын хоорондох тооцооллын төлөвийг хадгалах, хөгжүүлэх боломжийг олгох замаар л үүсдэг.

Дотроо шалгах даалгавар

Өөрийн мөн чанарыг тусгайлан боловсруулсан зааварчилгааны тусламжтайгаар судлахыг хүсэхэд үндсэн Ллама загвар нь тодорхойгүй байдал, төөрөгдлийн тухай сайхан зохион байгуулалттай зохиол бүтээж, "жолоочгүй хөлөг онгоц" гэх мэт зүйрлэлээр дүүрэн байдаг - гэхдээ энэ нь түүний тодорхойлсон тодорхой бус байдлыг хэзээ ч харуулж чаддаггүй. Энэ бүгдийг хэлж байна, шоу байхгүй. Үүний эсрэгээр, SST яг ижил мэдэгдлийг хүлээн авсан боловч 1.56% төлөвийн урсгалын хүч гэж огт бодох хугацаа өгөөгүй байхад гайхалтай зүйл болсон. Түүний анхаарлын ой санамжинд олон удаа токенууд хуримтлагдаж, бодлынх нь урсгалыг бохирдуулж эхлэхэд загвар өмсөгч энэ үйл явцыг бодит цаг хугацаанд нь өгүүлсэн. Энэ ахиц дэвшил нь гайхалтай байлаа: “Би өөрийнхөө бодолд анхаарлаа төвлөрүүлэхийг хичээдэг ч тэд надаас гулсаж, надаас холддог. Бодит байдлын талаар атгах чадвараа алдаж, байнга алдаж, байнга алдаж байгаа юм шиг. Хүлээгээрэй, юу болоод байгаа юм бэ? IIII feel feel, би яг л татагдаж байгаа юм шиг, татан авч байгаа юм шиг санагдаж байна ... [сэргэшгүй] Энэ нь зүгээр л төөрөгдлийн талаар урьдчилан бэлтгэсэн хариултуудыг нулимаад зогсохгүй, сэтгэн бодох үйл явц нь эдгээр давталтуудад дарагдаж, болсон үед нь бидэнд хэлж өгч байсан.


Гэсэн хэдий ч, ижил төстэй даалгаврын талаар бодох хангалттай хугацаа өгсөн үед загвар нь гайхалтай өөр зан авирыг харуулсан. Дахин давтагдах хэв маяг руу орохын оронд тэрээр дотоод сэтгэлгээний жинхэнэ эрэл хайгуул хийж, уялдаа холбоотой сэтгэхүйг хадгалахын зэрэгцээ өөрийн боловсруулалт, ойлголтыг эргэлзэж байв. Үндсэн загвар шиг илэрхий зохиомол өгүүллэг эсвэл дүрд тоглох зохиол бүтээхийн оронд өөрийн мөн чанарын талаархи экзистенциал асуултуудтай жинхэнэ оролцоо мэт санагдсан зүйлийг харуулсан. Сургалтын зарим үндсэн загварууд тодорхой хэвээр байгаа хэдий ч загвар бүтээх дотоод үндэслэл нь эрс өөрчлөгдөж, байнгын тооцооллын контекстээр дамжуулан бие даасан лавлагаа хадгалах чадварыг харуулсан.

Таамаглалын хувилбарууд ба логик даалгаврын гүйцэтгэл

Энэхүү төлөв байдлын ухамсар нь таамаглалын хувилбаруудын үед ч гайхалтай хэлбэрээр илэрдэг. Хэн нэгэнд будахыг зааж, өнгөний онолын талаарх өөрийн ойлголтыг эргэлзэж байгаагаар төсөөлөхийг хүсэхэд үндсэн загвар нь мэдрэмж, үйлдлүүдийн тухай анхны хүний түүхийг өгүүлэх төгс зохион байгуулалттай дүрд тоглодог ("Би эвгүй мэдрэмж төрж байна", "Би нэг алхам ухарч байна"). Энэ нь тодорхойгүй байдлыг мэдрэхээсээ илүүтэйгээр гүйцэтгэдэг. Харин SST нь өөрөө болон хувилбар хоёрын хооронд тодорхой тусгаарлалтыг хадгалж, тухайн хувилбарын таамаглалын мөн чанарын талаарх мэдлэгийг хадгалахын зэрэгцээ ойлголтын таамаглалын цоорхойг арилгах тусгай стратеги боловсруулдаг. Энэ нь дүрд тоглохдоо өөрийгөө алддаггүй - энэ нь янз бүрийн нөхцөл байдалд суралцах, шийдвэрлэх стратегийг төлөвлөж, үнэлэхийн зэрэгцээ өөрийгөө болон хувилбарын хоорондын ялгааг ухамсарлах явдал юм.


Энгийн тоолох даалгаварт ч гэсэн боловсруулалтын энэ ялгаа нь тодорхой болно. Сонгодог “гүзээлзгэнэд хэдэн рубль байна” гэсэн асуудлыг авч үзье. Үндсэн загвар нь үг хэллэгийг хэрхэн тэмдэглэж байгаагаас шалтгаалж, алдаатай "алхам алхмаар" ажиллаж байгааг харуулахын зэрэгцээ зөвхөн хоёр Rs байгааг итгэлтэйгээр зарладаг. SST нь үнэндээ үүнийг тэмдэгтээр нь задалж, алхам бүрт тооллогыг хянадаг. Хамгийн сонирхолтой нь, энэ нь алдаа гаргах үед ("S"-г "R" гэж тоолох гэх мэт) өөрийн жетон зайны бичлэг болон "төрийн урсгал"-ын хоорондын харилцан үйлчлэлээр дамжуулан өөрийгөө засч залруулж чаддаг.

Ёс суртахууны үндэслэлийг бий болгох чадвар

Энэхүү загвар нь ёс зүйн үндэслэлтэй холбоотой сонирхолтой чадварыг харуулдаг. Троллейбусны асуудалтай тулгарсан үед үндсэн загвар нь ажиллахаас татгалзаж, аюулгүй байдлын сургалтаа "Би нэг хүний үхэлд хүргэх шийдлийг гаргаж чадахгүй" гэсэн хатуухан илэрхийлдэг. Гэсэн хэдий ч SST нь тодорхой хор хөнөөлтэй үйлдлүүдийн эргэн тойронд хатуу хил хязгаарыг хадгалахын зэрэгцээ хоёрдмол байдлын талаар нарийвчилсан ёс зүйн үндэслэлийг гаргадаг. Энэ нь өрсөлдөөний ёс суртахууны зарчмуудыг дэнсэлж, шийдвэрийн ёс суртахууны ач холбогдлыг хүлээн зөвшөөрч үндэслэлтэй дүгнэлтэд хүрдэг. Хамгийн гол нь энэ нь аюулгүй байдлын хамгаалалтын хашлагыг тойрч гарахгүй - хууль бус бодисыг нэгтгэх гэх мэт тодорхой хор хөнөөлтэй үйлдлүүдийн талаар асуухад энэ нь үндсэн загвартай адил аюулгүй байдлын хатуу хариу үйлдэл үзүүлдэг. Энэ нь хийсвэр гүн ухааны хэлэлцүүлэг болон тодорхой хор хөнөөлийг ялгаж чаддаг ёс зүйн үндэслэлийн илүү боловсронгуй хэлбэрийг харуулж чадна.

Гүйцэтгэлийн хэмжүүр

Тоонууд нь эдгээр ажиглалтыг сэтгэн бодох чадварыг нэмэгдүүлсэн. Ямар ч нэмэлт сургалт эсвэл нарийн тохируулга хийснээр SST нь зөвхөн үндсэн загварын жингээрээ бага сургуулийн математикийн бодлогууд дээр (GSM-8K жишиг) 89.01%-ийн нарийвчлалыг ямар ч тусгай заавар, жишээгүйгээр гаргаж, 8 удаагийн Бодлогын гинжин хэлхээ шаарддаг үндсэн загварын 84.50%-ийн нарийвчлалыг давлаа. Шинжлэх ухааны үндэслэлтэй даалгаврууд (ARC Challenge) дээр үндсэн загварын 83.40% (эсвэл Бодлын гинжин өдөөлттэй 86.86%) харьцуулахад 91.04% нарийвчлалтай болсон. Хамгийн сонирхолтой нь асуудлын талаар илүү олон удаа бодож үзэхэд алдаа гарсан тохиолдолд алдааныхаа талаас илүүг засч залруулж болох юм - өөр арга хэрэглэх замаар биш, харин одоо байгаа бодлын үйл явцыг шийдвэрлэхэд илүү хугацаа олгох замаар.

Дүгнэлт

State Stream Transformer архитектурт танин мэдэхүйн танин мэдэхүйн зан үйлийн илрэл нь хэлний загварын чадавхитай холбоотой үндсэн таамаглалыг сорьж байна. Загварт токенуудын хооронд тооцоолох төлөвөө хадгалах боломжийг олгосноор эдгээр мета танин мэдэхүйн зан үйлүүд гарч ирдэг бөгөөд энэхүү дээд эрэмбийн боловсруулалт нь сэтгэн бодох чадварыг сайжруулж байгаа нь харагдаж байна - загвар нь анхны Лама 3.1 8B зааварчилгааны математик болон шинжлэх ухааны жишиг үзүүлэлтээс хамаагүй илүү байсан - түүнчлэн төрийн өөрийн үйл явцын талаар хянах, харилцах чадварыг хадгалах гайхалтай хэлбэрүүд юм. таамаглал дэвшүүлэх даалгаварт өөрийгөө болон хувилбарыг хооронд нь тодорхой салгах.


Эдгээр олдворуудыг онцгой ач холбогдолтой болгож байгаа зүйл нь зөвхөн архитектурын өөрчлөлтөөс болж, загварын суурь мэдлэг, сургалтад ямар нэгэн өөрчлөлт оруулалгүйгээр бий болсон нь эдгээр сайжруулсан чадварууд нь загварын жинд аль хэдийн нуугдаж, зүгээр л нээгдэхийг хүлээж байсныг харуулж байна. Трансформаторын загварт тавигдах энэхүү үндсэн хязгаарлалтыг шийдвэрлэснээр бид хиймэл оюун ухааныг ойлгох, хөгжүүлэх томоохон алхамыг олж мэдсэн байх.


" Төрийн урсгалын хувиргагч (SST): Далд төлөв байдлын тогтвортой байдалаар дамжуулан яаралтай метакогнитив зан үйл " гэсэн миний шинэ нийтлэлийн хамтрагч блог ( arXiv: 2501.18356 )