Доўгі час ІТ-спецыялісты працавалі без клопату ў свеце. Яны плаўна распрацоўвалі, стваралі і разгортвалі праграмнае забеспячэнне. Потым наступіла эра ізаляцыі, і раптам ім стала сумна (вядома, гэта жартаўлівы погляд на рэальныя падзеі). ІТ-спецыялісты хацелі стварыць нешта, што магло б спраўляцца з іх працай, пакуль яны заставаліся дома: адказваць на звычайныя пытанні, ствараць крутыя аватары і аналізаваць велізарныя аб'ёмы даных за лічаныя хвіліны. Яны марылі падарожнічаць у фантастычнае месца, і таму, як вы ўжо здагадаліся, яны зрабілі рэвалюцыю ў ІІ.
ШІ зараз працуе, дае адказы і паляпшае жыццё. Якім бы кваліфікаваным памочнікам ён ні быў, штучны інтэлект сапраўды эфектыўны толькі пры правільным кантэксце.
Мы з'яўляемся сведкамі хуткага прагрэсу ў прылажэннях штучнага інтэлекту - ад стварэння малюнкаў і відэа да прагназавання фондавага рынку і аналізу крыптавалют. Тым не менш, штучны інтэлект можа прапанаваць інфармацыю, якую мы не запытваем, або даць відавочна ілжывыя адказы. Яе паводзіны вельмі нагадваюць паводзіны хатніх котак - ведаеце, тых, што сядзяць ціхенька, а потым раптам кідаюцца на вас?
Нашы кошкі, як і ІІ, любяць быць непрадказальнымі:
Вы можаце задацца пытаннем, што азначаюць дэтэрмінізм і стахастычнасць - давайце даведаемся.
Дэтэрмінаваная сістэма заўсёды дае аднолькавы вынік пры аднолькавых уваходных дадзеных — падумайце аб ідэмпатытнасці, калі вы інжынер DevOps . Рэальным прыкладам можа быць ваша кошка, якая кожны раз есць аднолькавую колькасць ежы, якую вы кладзеце ў яе міску - гэта дэтэрмінізм . Але калі кошка нюхае і з'ядае толькі палову, гэта ўжо не вызначальна.
Выпадковы працэс уключае элемент выпадковасці: пры аднолькавых уваходных дадзеных вынік можа адрознівацца. Напрыклад, у мадэлі машыннага навучання часта выкарыстоўваюцца стахастычныя алгарытмы, такія як стахастычны градыентны спуск (SGD) , які навучае мадэль, выбіраючы выпадковыя фрагменты даных, а не ўвесь набор даных.
Гэтыя азначэнні не цалкам тлумачаць, чаму нашы штучныя інтэлекты часам галюцынуюць і паводзяць сябе хаатычна. Ёсць і іншыя фактары, у тым ліку наступныя:
Калі мы прыгледзімся бліжэй, то ўбачым іншыя механізмы, якія ўплываюць на непрадказальныя паводзіны мадэляў штучнага інтэлекту.
Вы, напэўна, ведаеце, што штучны інтэлект, якім карыстаюцца ўсе, абапіраецца на розныя алгарытмы нейронных сетак. Вось некалькі тыпаў нейронавых сетак:
Нам патрэбны ўвесь гэты кантэкст, каб зразумець, чаму самая распаўсюджаная мадэль, ChatGPT, часта галюцынуе.
ChatGPT працуе на аснове архітэктуры Transformer , упершыню прадстаўленай у артыкуле 2017 года "Увага - усё, што вам трэба". Гэта той самы механізм, які зрабіў рэвалюцыю ў апрацоўцы тэксту. Трансформеры працуюць на аснове механізму ўвагі да сябе, што дазваляе ім разглядаць глабальны кантэкст, а не толькі бліжэйшыя словы, як гэта робяць старыя перыядычныя нейронавыя сеткі (LSTM і GRU). Мадэль належыць да серыі GPT (Generative Pre-Trained Transformer), што азначае:
Адказы ChatGPT вынікаюць з выпадковых працэсаў, а не з жорсткага правіла. Ён не запамінае і не прайгравае тэксты, а стварае адказы з дапамогай імавернаснай мадэлі.
Калі ChatGPT адказвае, ён не выбірае адзінае правільнае слова, а вылічае размеркаванне верагоднасці.
P(wi|w1, w2, ..., wi-1), дзе:
w1, w2, ..., wi-1 — папярэднія словы
Напрыклад, калі вы спытаеце: «Які сёння дзень?» ChatGPT можа мець розныя верагоднасці:
Часцей за ўсё ён выбірае слова з найбольшай імавернасцю, але з-за тэмпературы генерацыі (параметр, які кантралюе выпадковасць), ён часам можа выбраць менш верагодны варыянт у залежнасці ад кантэксту.
ChatGPT працуе з абмежаваным кантэкстным акном, гэта значыць ён "запамінае" толькі апошнія токены NN. Для GPT-4 кантэкстнае акно складае каля 128 тысяч токенаў (каля 300 старонак тэксту). Калі важная інфармацыя знаходзіцца па-за межамі гэтага кантэксту, яна можа:
Тым не менш, ChatGPT часта можа выправіць свой адказ пасля таго, як вы спытаеце, ці ўпэўнены ён. Аднак ChatGPT часта можа выправіць свой адказ, калі вы спытаеце, ці ўпэўнены ён.
Калі вы пытаецеся ў ChatGPT: «Вы ўпэўнены?» ён паўторна аналізуе свой адказ, выкарыстоўваючы новы кантэкст, дзе прысутнічае сумненне. Гэта прыводзіць да:
Гэты працэс можна растлумачыць байесовской верагоднасцю.
P(A|B) = P(B|A)P(A) / P(B), дзе:
P(A|B) — імавернасць таго, што адказ A з'яўляецца правільным, улічваючы ваша наступнае пытанне B.
P(B|A) — верагоднасць таго, што вы б спыталі, ці меў ChatGPT першапачатковую рацыю.
P(A) — пачатковая верагоднасць адказу ChatGPT.
P(B) - агульная верагоднасць, якую вы спытаеце.
Зашмат інфармацыі для вас? Перагрэў мозгу? Уявіце сабе, што ІІ таксама перагружаны вялікімі аб'ёмамі інфармацыі.
Велізарная колькасць тэкставых даных паступае ў навучанне ChatGPT, уключаючы шум або супярэчлівую інфармацыю, напрыклад:
Гэта прыклады мадэльных галюцынацый, якія ўзнікаюць таму, што вагі ChatGPT навучаюцца на імавернасных асацыяцыях слоў, а не на строгай логіцы.
Вось чаму мы можам навучыцца з гэтага. ChatGPT галюцынуе, бо:
Прагназуе імавернасна, а не дэтэрмінавана.
Мае абмежаваную памяць (кантэкстнае акно).
Пералічвае імавернасці пры допыце.
Мае навучальныя даныя, якія ўключаюць шум і супярэчнасці.
Гэта так проста. Спадзяюся, вы не стаміліся. Калі вы гэта зрабілі, гэта добры знак, таму што гэта азначае, што вы мысліце крытычна, што менавіта тое, што мы павінны рабіць пры працы з ІІ.