paint-brush
Недетерминизам на АИ, халуцинации и... Мачки?од страна на@alexandersimonov
Нова историја

Недетерминизам на АИ, халуцинации и... Мачки?

од страна на Alexander Simonov6m2025/02/16
Read on Terminal Reader

Премногу долго; Да чита

ВИ е како мачки: понекогаш јадат, понекогаш игнорираат, а понекогаш ве гребат. Одговорите на ChatGPT произлегуваат од стохастички процес, а не од ригидно правило. Тој има тенденција да создава свои одговори и е сигурен само кога се користи во вистинскиот контекст.
featured image - Недетерминизам на АИ, халуцинации и... Мачки?
Alexander Simonov HackerNoon profile picture
0-item
1-item

Долго време, ИТ специјалисти работеа без грижа во светот. Тие непречено развија, изградија и распоредија софтвер. Потоа дојде ерата на изолација, и одеднаш им здодеа (се разбира, ова е разиграна слика за вистинските настани). ИТ луѓето сакаа да создадат нешто што ќе може да се справи со нивната работа додека тие остануваат дома: да одговараат на рутински прашања, да генерираат одлични аватари и да анализираат огромни количини на податоци за неколку минути. Тие сонуваа да патуваат на фантастично место и така, погодувате, направија револуција во вештачката интелигенција.


Вештачката интелигенција сега функционира, дава одговори и ги подобрува животите. Колку и да е вешт асистент, вештачката интелигенција е навистина ефикасна само кога се користи во вистинскиот контекст.


Сведоци сме на брз напредок во апликациите за вештачка интелигенција, од генерирање слики и видео до прогнозирање на берзата и анализа на криптовалути. Сепак, вештачката интелигенција може да понуди информации што не ги бараме или да дава отворено лажни одговори. Нејзиното однесување е многу слично на она на домашните мачки - знаете, она што седи тивко, а потоа одеднаш се нафрла врз вас?


ChatGPT кога ќе му поставите едноставно прашање


Нашите мачки, како и вештачката интелигенција, уживаат да бидат непредвидливи:


  • Им ја давате истата храна (или податоци) - понекогаш јадат, понекогаш игнорираат.
  • Ги обучувате да реагираат, но тие само повремено реагираат кога ќе им се јавите.
  • Колку е поголема и дива мачката или колку е поголем моделот со вештачка интелигенција, толку е потешко да се предвиди нејзиното однесување.
  • Во утринските часови, мачките може да бидат мирни; до вечер, тие стануваат хиперактивни (исто како и динамичните податоци).
  • Мачките можеби се пријателски расположени (детерминистички), но можат да ве изгребат без предупредување (стохастично).


Можеби се прашувате што значат детерминизмот и стохастичноста - ајде да дознаеме.

Детерминизам и стохастичност

Детерминистичкиот систем секогаш го произведува истиот резултат со истиот влез - размислете за идемотенција ако сте инженер за DevOps . Пример од реалниот свет би бил вашата мачка која јаде иста количина на храна што ја ставате во нејзината чинија секој пат - ова е детерминизам . Но, кога мачката шмрка и јаде само половина, тоа веќе не е детерминистичко.


Очекуван излез (празен сад) наспроти вистинскиот излез


Стохастичкиот процес вклучува елемент на случајност: со истиот влез, резултатот може да варира. На пример, моделот за машинско учење често користи стохастички алгоритми, како што е Стохастичко спуштање на градиент (SGD) , кој го обучува моделот со избирање случајни делови од податоци, наместо целата база на податоци.


Овие дефиниции не објаснуваат целосно зошто нашите ВИ понекогаш халуцинираат и се однесуваат хаотично. Постојат и други фактори кои придонесуваат, вклучувајќи ги следниве:


  • Детерминизам
  • Стохастичност
  • Грешки при заокружување и аритметика со подвижна запирка
  • Повеќенишки и паралелни пресметки
  • Постојано ажурирање на податоците
  • Хаос и „ефектот на пеперутката“


Ако погледнеме малку поблиску, ќе видиме други механизми кои влијаат на непредвидливото однесување на моделите со вештачка интелигенција.

Поглед на невронски мрежи

Веројатно знаете дека вештачката интелигенција што сите ги користи се потпираат на различни алгоритми на невронски мрежи. Еве неколку видови на невронски мрежи:


  • Целосно поврзани невронски мрежи (FCNN): Класична архитектура каде секој неврон се поврзува со секој неврон во следниот слој.


  • Конволутивни невронски мрежи (CNN): Овие мрежи користат конволуции или филтри кои ги истакнуваат карактеристиките на сликата како рабови, текстури и форми.


  • Рекурентни невронски мрежи (RNN ): Овие мрежи имаат циклуси за повратни информации што им овозможуваат да ги запомнат претходните чекори (имено, тие запомнуваат секвенци).


  • Долгорочна краткорочна меморија (LSTM): Подобрена верзија на RNN со механизми за селективно заборавање и запомнување на важни податоци.


  • Трансформатори : Најмоќната класа за обработка на текст. Тие користат повеќекратно внимание, овозможувајќи им да го разгледаат целиот контекст истовремено.


  • Generative Adversarial Networks (GANs): Тие се состојат од две мрежи, од кои едната генерира податоци, а другата го оценува нивниот квалитет. Нивната конкуренција води до подобри резултати.


  • Автоматски кодери : мрежи дизајнирани да ги компресираат (шифрираат) информациите и потоа да ги реконструираат (декодираат).


  • Графички невронски мрежи (GNN): Тие работат со графикони (јазли и рабови) наместо со обични податоци.


Ни треба целиот тој контекст за да разбереме зошто најчестиот модел, ChatGPT, често халуцинира.

Како се случуваат халуцинации со вештачка интелигенција

ChatGPT работи на архитектурата Transformer , првпат претставена во трудот од 2017 година, „Внимание е сè што ви треба“. Ова е самиот механизам што ја револуционизираше обработката на текстот. Трансформаторите работат на механизмот за само-внимание, кој им овозможува да го земат предвид глобалниот контекст наместо само најблиските зборови како постарите рекурентни невронски мрежи (LSTM и GRU). Моделот припаѓа на серијата GPT (Generative Pre-Trained Transformer), што значи:


  • Претходно обучено: Првично беше обучено за огромни количини текстови (книги, статии, веб-страници и код).
  • Генераторски: Неговата задача е да генерира текст, а не само да класифицира или извлекува факти.


Одговорите на ChatGPT произлегуваат од стохастички процес, а не од ригидно правило. Не меморира или репродуцира текстови, туку генерира одговори користејќи веројатен модел.

Предвидување на зборови како веројатен процес

Кога ChatGPT одговара, тој не го избира единствениот точен збор, туку пресметува распределба на веројатност.


P(wi|w1, w2, ..., wi-1), каде што:

  • „wi“ - следниот збор во реченицата

w1, w2, ..., wi-1 - претходните зборови

  • P(wi|w1, ..., wi-1) - веројатноста „wi“ да биде следниот збор


На пример, ако прашате: „Кој ден е денес? ChatGPT може да има различни веројатности:


  • „Понеделник“ - P=0,7
  • „Среда“ — P=0,2
  • „42“ — P=0,0001


Најчесто го избира зборот со најголема веројатност, но поради температурата на генерирањето (параметар што ја контролира случајноста), понекогаш може да избере помалку веројатна опција врз основа на контекстот.

Влијание на контекстот и заборавање на информации

ChatGPT работи со ограничен контекстен прозорец, што значи дека ги „се сеќава“ само последните НН токени. За GPT-4, контекстниот прозорец е околу 128 илјади токени (околу 300 страници текст). Доколку важните информации се надвор од овој контекст, може:


  • Заборавете ги деталите (ефект на отсекување на контекстот)
  • Информации за шминкање (стохастички процес)


Сепак, ChatGPT често може да го поправи својот одговор откако ќе прашате дали е сигурен. Сепак, ChatGPT често може да го поправи својот одговор ако прашате дали е сигурен.

Вештачката интелигенција понекогаш се корегира, но зошто?

Кога ќе прашате ChatGPT, „Дали сте сигурни? тој повторно го анализира својот одговор користејќи нов контекст каде што е присутен сомнеж. Ова резултира со:


  • Пресметување на веројатностите за одговори.
  • Избор на поверодостојна опција доколку постои.


Овој процес може да се објасни со Бајесова веројатност.


P(A|B) = P(B|A)P(A) / P(B), каде што:


  • P(A|B) — веројатноста одговорот А да е точен, со оглед на вашето следно прашање Б.

  • P(B|A) - веројатноста дека би прашале дали ChatGPT првично бил во право.

  • P(A) - почетната веројатност за одговорот на ChatGPT.

  • P(B) - вкупната веројатност што би ја прашале.


Премногу информации за вас? Прегревање на мозокот? Замислете дека и вештачката интелигенција се преоптоварени со големи количини на информации.

Грешки поради преоптоварување и бучни податоци

Во обуката на ChatGPT се влеваат огромни количини текстуални податоци, вклучувајќи бучава или контрадикторни информации, како што се:


  • Некои извори велат дека Земјата е тркалезна, додека други тврдат дека е рамна.


  • ВИ не може секогаш да одреди која информација е вистинита кога се појавува со различни веројатности.


ChatGPT обработка на контрадикторни податоци биде како


Ова се примери на моделски халуцинации, кои се јавуваат затоа што тежините на ChatGPT се обучени на веројатни асоцијации на зборови наместо строга логика.

Крајна линија

Еве што можеме да научиме од ова. ChatGPT халуцинира затоа што:


  • Предвидува веројатност, а не детерминистички.

  • Има ограничена меморија (контекстен прозорец).

  • Повторно ги пресметува веројатностите кога се испрашува.

  • Има податоци за обука кои вклучуваат бучава и противречности.


Тоа е толку едноставно. Се надевам дека не се изморивте. Ако сте го направиле тоа, тоа е добар знак бидејќи тоа значи дека размислувате критички, што е токму она што треба да го правиме кога работиме со вештачка интелигенција.

L O A D I N G
. . . comments & more!

About Author

Alexander Simonov HackerNoon profile picture
Alexander Simonov@alexandersimonov
Alexander Simonov is the Deputy DevOps Practice Lead at Coherent Solutions. He has written bylines for DZone, The New Stack, and is a 2024 DevOps Dozen Award honoree, recognized by DevOps.com.

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...