paint-brush
Недетерминизмът на AI, халюцинациите и... котките?от@alexandersimonov
Нова история

Недетерминизмът на AI, халюцинациите и... котките?

от Alexander Simonov6m2025/02/16
Read on Terminal Reader

Твърде дълго; Чета

AI е като котките: понякога те ядат, понякога го игнорират, а понякога те драскат. Отговорите на ChatGPT са резултат от стохастичен процес, а не от твърдо правило. Той има тенденция да измисля свои собствени отговори и е надежден само когато се използва в правилния контекст.
featured image - Недетерминизмът на AI, халюцинациите и... котките?
Alexander Simonov HackerNoon profile picture
0-item
1-item

Дълго време IT специалистите работеха безгрижно по света. Те разработиха, изградиха и внедриха софтуер гладко. След това настъпи ерата на изолацията и изведнъж те се отегчиха (разбира се, това е закачлива представа за действителните събития). ИТ хората искаха да създадат нещо, което може да се справи с работата им, докато си стоят вкъщи: отговарят на рутинни въпроси, генерират страхотни аватари и анализират огромни количества данни за минути. Те мечтаеха да пътуват до фантастично място и така, познахте, направиха революция в ИИ.


AI вече функционира, предоставя отговори и подобрява живота. Колкото и опитен асистент да е, AI е наистина ефективен само когато се използва в правилния контекст.


Свидетели сме на бърз напредък в приложенията с изкуствен интелект, от генериране на изображения и видео до прогнозиране на фондовия пазар и анализ на криптовалута. И все пак AI може да предложи информация, която не искаме , или да предостави явно неверни отговори. Поведението му много прилича на това на домашните котки - нали знаете, тези, които седят тихо и след това внезапно се нахвърлят върху вас?


ChatGPT, когато му зададете прост въпрос


Нашите котки, както и AI, се радват да бъдат непредсказуеми:


  • Давате им една и съща храна (или данни) - понякога ядат, понякога я игнорират.
  • Вие ги обучавате да отговарят, но те реагират само от време на време, когато ги повикате.
  • Колкото по-голяма и дива е котката или колкото по-голям е AI моделът, толкова по-трудно е да се предскаже нейното поведение.
  • На сутринта котките може да са спокойни; до вечерта те стават хиперактивни (точно като динамичните данни).
  • Котките може да са приятелски настроени (детерминистични), но могат да ви одраскат без предупреждение (стохастични).


Може би се чудите какво означават детерминизъм и стохастичност - нека разберем.

Детерминизъм и стохастичност

Детерминистичната система винаги дава един и същ резултат при една и съща входна информация – помислете за идемпотентност , ако сте DevOps инженер . Пример от реалния свят би бил вашата котка, която яде същото количество храна, което слагате в нейната купа всеки път - това е детерминизъм . Но когато котката подуши и изяде само половината, това вече не е детерминистично.


Очаквана продукция (празна купа) спрямо действителна продукция


Стохастичният процес включва елемент на случайност: при еднакви входни данни резултатът може да варира. Например моделът за машинно обучение често използва стохастични алгоритми, като Stochastic Gradient Descent (SGD) , който обучава модела, като избира произволни части от данни, а не целия набор от данни.


Тези дефиниции не обясняват напълно защо нашите ИИ понякога халюцинират и се държат хаотично. Има и други допринасящи фактори, включително следното:


  • Детерминизъм
  • Стохастичност
  • Грешки при закръгляване и аритметика с плаваща запетая
  • Многонишкови и паралелни изчисления
  • Непрекъснато актуализиране на данните
  • Хаосът и "ефектът на пеперудата"


Ако се вгледаме малко по-отблизо, ще видим други механизми, които влияят върху непредвидимото поведение на AI моделите.

Поглед към невронните мрежи

Вероятно знаете, че ИИ, които всеки използва, разчитат на различни алгоритми за невронни мрежи. Ето някои видове невронни мрежи:


  • Напълно свързани невронни мрежи (FCNN): Класическа архитектура, при която всеки неврон се свързва с всеки неврон в следващия слой.


  • Конволюционни невронни мрежи (CNN): Тези мрежи използват навивки или филтри, които подчертават характеристики на изображението като ръбове, текстури и форми.


  • Повтарящи се невронни мрежи (RNNs ): Тези мрежи имат вериги за обратна връзка, които им позволяват да запомнят предишни стъпки (а именно, те помнят последователности).


  • Дълга краткосрочна памет (LSTM): подобрена версия на RNN с механизми за селективно забравяне и запомняне на важни данни.


  • Transformers : Най-мощният клас за обработка на текст. Те използват многостранно внимание, което им позволява да разглеждат целия контекст едновременно.


  • Generative Adversarial Networks (GANs): Те се състоят от две мрежи, едната от които генерира данни, а другата оценява тяхното качество. Тяхната конкуренция води до по-добри резултати.


  • Автоенкодери : Мрежи, предназначени да компресират (кодират) информация и след това да я реконструират (декодират).


  • Графични невронни мрежи (GNN): Те работят с графики (възли и ръбове), а не с обикновени данни.


Имаме нужда от целия този контекст, за да разберем защо най-често срещаният модел, ChatGPT, често халюцинира.

Как се случват AI халюцинации

ChatGPT работи върху архитектурата Transformer , представена за първи път в документа от 2017 г. „Вниманието е всичко, от което се нуждаете“. Това е самият механизъм, който революционизира обработката на текст. Трансформаторите работят върху механизма за самовнимание, който им позволява да вземат предвид глобалния контекст, а не само най-близките думи, както правят по-старите повтарящи се невронни мрежи (LSTM и GRU). Моделът принадлежи към серията GPT (Generative Pre-Trained Transformer), което означава:


  • Предварително обучен: Първоначално беше обучен върху огромни количества текст (книги, статии, уебсайтове и код).
  • Генеративен: Неговата задача е да генерира текст, а не просто да класифицира или извлича факти.


Отговорите на ChatGPT са резултат от стохастичен процес, а не от твърдо правило. Той не запомня и не възпроизвежда текстове, а генерира отговори с помощта на вероятностен модел.

Предсказването на думи като вероятностен процес

Когато ChatGPT отговори, той не избира единствената правилна дума, а изчислява разпределение на вероятностите.


P(wi|w1, w2, ..., wi-1), където:

  • “wi” — следващата дума в изречението

w1, w2, ..., wi-1 — предишните думи

  • P(wi|w1, ..., wi-1) — вероятността „wi“ да бъде следващата дума


Например, ако попитате „Кой ден е днес?“ ChatGPT може да има различни вероятности:


  • „Понеделник“ — P=0,7
  • „Сряда“ — P=0,2
  • „42“ — P=0,0001


Най-често ще избира думата с най-голяма вероятност, но поради температурата на генериране (параметър, който контролира произволността), понякога може да избере по-малко вероятна опция въз основа на контекста.

Влияние на контекста и забравяне на информация

ChatGPT работи с ограничен контекстен прозорец, което означава, че „помни“ само последните NN токени. За GPT-4 контекстният прозорец е около 128k токена (около 300 страници текст). Ако важна информация е извън този контекст, тя може:


  • Забравете детайлите (ефект на изрязване на контекста)
  • Информация за грима (стохастичен процес)


И все пак ChatGPT често може да коригира отговора си, след като попитате дали е сигурен. Въпреки това ChatGPT често може да коригира отговора си, ако попитате дали е сигурен.

AI понякога се коригира, но защо?

Когато попитате ChatGPT, „Сигурни ли сте?“ анализира отново своя отговор, използвайки нов контекст, в който има съмнение. Това води до:


  • Преизчисляване на вероятностите за отговор.
  • Избор на по-правдоподобна опция, ако има такава.


Този процес може да се обясни с байесовската вероятност.


P(A|B) = P(B|A)P(A) / P(B), където:


  • P(A|B) — вероятността отговор А да е правилен, като се има предвид вашия последващ въпрос B.

  • P(B|A) — вероятността да попитате дали ChatGPT първоначално е бил прав.

  • P(A) — първоначалната вероятност за отговор на ChatGPT.

  • P(B) — общата вероятност, която бихте попитали.


Твърде много информация за вас? Прегряване на мозъка? Представете си, че ИИ също са затрупани от големи количества информация.

Грешки, дължащи се на пренастройване и шумни данни

Огромни количества текстови данни се вливат в обучението на ChatGPT, включително шум или противоречива информация, като например:


  • Някои източници казват, че Земята е кръгла, докато други твърдят, че е плоска.


  • AI не винаги може да определи коя информация е вярна, когато се появява с различни вероятности.


ChatGPT обработката на противоречиви данни е като


Това са примери за моделни халюцинации, които се появяват, защото теглата на ChatGPT се обучават на вероятностни асоциации на думи, а не на строга логика.

Долната линия

Ето какво можем да научим от това. ChatGPT халюцинира, тъй като:


  • Прогнозира вероятностно, а не детерминистично.

  • Има ограничена памет (контекстен прозорец).

  • Преизчислява вероятностите, когато бъде разпитан.

  • Има данни за обучение, които включват шум и противоречия.


Толкова е просто. Дано не си се изморил. Ако сте го направили, това е добър знак, защото означава, че мислите критично, което е точно това, което трябва да правим, когато работим с AI.

L O A D I N G
. . . comments & more!

About Author

Alexander Simonov HackerNoon profile picture
Alexander Simonov@alexandersimonov
Alexander Simonov is the Deputy DevOps Practice Lead at Coherent Solutions. He has written bylines for DZone, The New Stack, and is a 2024 DevOps Dozen Award honoree, recognized by DevOps.com.

ЗАКАЧВАЙТЕ ЕТИКЕТИ

ТАЗИ СТАТИЯ Е ПРЕДСТАВЕНА В...