Дълго време IT специалистите работеха безгрижно по света. Те разработиха, изградиха и внедриха софтуер гладко. След това настъпи ерата на изолацията и изведнъж те се отегчиха (разбира се, това е закачлива представа за действителните събития). ИТ хората искаха да създадат нещо, което може да се справи с работата им, докато си стоят вкъщи: отговарят на рутинни въпроси, генерират страхотни аватари и анализират огромни количества данни за минути. Те мечтаеха да пътуват до фантастично място и така, познахте, направиха революция в ИИ.
AI вече функционира, предоставя отговори и подобрява живота. Колкото и опитен асистент да е, AI е наистина ефективен само когато се използва в правилния контекст.
Свидетели сме на бърз напредък в приложенията с изкуствен интелект, от генериране на изображения и видео до прогнозиране на фондовия пазар и анализ на криптовалута. И все пак AI може да предложи информация, която не искаме , или да предостави явно неверни отговори. Поведението му много прилича на това на домашните котки - нали знаете, тези, които седят тихо и след това внезапно се нахвърлят върху вас?
Нашите котки, както и AI, се радват да бъдат непредсказуеми:
Може би се чудите какво означават детерминизъм и стохастичност - нека разберем.
Детерминистичната система винаги дава един и същ резултат при една и съща входна информация – помислете за идемпотентност , ако сте DevOps инженер . Пример от реалния свят би бил вашата котка, която яде същото количество храна, което слагате в нейната купа всеки път - това е детерминизъм . Но когато котката подуши и изяде само половината, това вече не е детерминистично.
Стохастичният процес включва елемент на случайност: при еднакви входни данни резултатът може да варира. Например моделът за машинно обучение често използва стохастични алгоритми, като Stochastic Gradient Descent (SGD) , който обучава модела, като избира произволни части от данни, а не целия набор от данни.
Тези дефиниции не обясняват напълно защо нашите ИИ понякога халюцинират и се държат хаотично. Има и други допринасящи фактори, включително следното:
Ако се вгледаме малко по-отблизо, ще видим други механизми, които влияят върху непредвидимото поведение на AI моделите.
Вероятно знаете, че ИИ, които всеки използва, разчитат на различни алгоритми за невронни мрежи. Ето някои видове невронни мрежи:
Имаме нужда от целия този контекст, за да разберем защо най-често срещаният модел, ChatGPT, често халюцинира.
ChatGPT работи върху архитектурата Transformer , представена за първи път в документа от 2017 г. „Вниманието е всичко, от което се нуждаете“. Това е самият механизъм, който революционизира обработката на текст. Трансформаторите работят върху механизма за самовнимание, който им позволява да вземат предвид глобалния контекст, а не само най-близките думи, както правят по-старите повтарящи се невронни мрежи (LSTM и GRU). Моделът принадлежи към серията GPT (Generative Pre-Trained Transformer), което означава:
Отговорите на ChatGPT са резултат от стохастичен процес, а не от твърдо правило. Той не запомня и не възпроизвежда текстове, а генерира отговори с помощта на вероятностен модел.
Когато ChatGPT отговори, той не избира единствената правилна дума, а изчислява разпределение на вероятностите.
P(wi|w1, w2, ..., wi-1), където:
w1, w2, ..., wi-1 — предишните думи
Например, ако попитате „Кой ден е днес?“ ChatGPT може да има различни вероятности:
Най-често ще избира думата с най-голяма вероятност, но поради температурата на генериране (параметър, който контролира произволността), понякога може да избере по-малко вероятна опция въз основа на контекста.
ChatGPT работи с ограничен контекстен прозорец, което означава, че „помни“ само последните NN токени. За GPT-4 контекстният прозорец е около 128k токена (около 300 страници текст). Ако важна информация е извън този контекст, тя може:
И все пак ChatGPT често може да коригира отговора си, след като попитате дали е сигурен. Въпреки това ChatGPT често може да коригира отговора си, ако попитате дали е сигурен.
Когато попитате ChatGPT, „Сигурни ли сте?“ анализира отново своя отговор, използвайки нов контекст, в който има съмнение. Това води до:
Този процес може да се обясни с байесовската вероятност.
P(A|B) = P(B|A)P(A) / P(B), където:
P(A|B) — вероятността отговор А да е правилен, като се има предвид вашия последващ въпрос B.
P(B|A) — вероятността да попитате дали ChatGPT първоначално е бил прав.
P(A) — първоначалната вероятност за отговор на ChatGPT.
P(B) — общата вероятност, която бихте попитали.
Твърде много информация за вас? Прегряване на мозъка? Представете си, че ИИ също са затрупани от големи количества информация.
Огромни количества текстови данни се вливат в обучението на ChatGPT, включително шум или противоречива информация, като например:
Това са примери за моделни халюцинации, които се появяват, защото теглата на ChatGPT се обучават на вероятностни асоциации на думи, а не на строга логика.
Ето какво можем да научим от това. ChatGPT халюцинира, тъй като:
Прогнозира вероятностно, а не детерминистично.
Има ограничена памет (контекстен прозорец).
Преизчислява вероятностите, когато бъде разпитан.
Има данни за обучение, които включват шум и противоречия.
Толкова е просто. Дано не си се изморил. Ако сте го направили, това е добър знак, защото означава, че мислите критично, което е точно това, което трябва да правим, когато работим с AI.