1,016 olvasmányok
1,016 olvasmányok

A mesterséges intelligencia nem-determinizmusa, hallucinációi és... macskák?

által Alexander Simonov6m2025/02/16
Read on Terminal Reader

Túl hosszú; Olvasni

A mesterséges intelligencia olyan, mint a macskák: néha esznek, néha figyelmen kívül hagyják, néha meg vakarják. A ChatGPT válaszai egy sztochasztikus folyamat eredménye, nem pedig egy merev szabály. Hajlamos saját válaszokat kitalálni, és csak akkor megbízható, ha megfelelő kontextusban használják.
featured image - A mesterséges intelligencia nem-determinizmusa, hallucinációi és... macskák?
Alexander Simonov HackerNoon profile picture
0-item
1-item

Az informatikusok sokáig gond nélkül dolgoztak a világon. Zökkenőmentesen fejlesztettek, építettek és telepítettek szoftvereket. Aztán beköszöntött az elszigetelődés korszaka, és hirtelen megunták (persze, ez játékosan veszi a valós eseményeket). Az informatikusok valami olyasmit szerettek volna létrehozni, amivel otthon maradtak a munkájuk: válaszoljanak rutinkérdésekre, menő avatarokat generáljanak, és hatalmas mennyiségű adatot elemezzenek percek alatt. Arról álmodoztak, hogy egy fantasztikus helyre utaznak, és így, sejtitek, forradalmasították az AI-t.


Az AI már működik, válaszokat ad, és javítja az életet. Bármilyen képzett asszisztens is, a mesterséges intelligencia csak akkor igazán hatékony, ha megfelelő környezetben használják.


Gyors fejlődésnek lehetünk tanúi az AI-alkalmazások terén, a képek és videók generálásától a tőzsdei előrejelzésekig és a kriptovaluta elemzésekig. Ennek ellenére a mesterséges intelligencia kínálhat olyan információkat, amelyeket nem kérünk , vagy nyilvánvalóan hamis válaszokat ad. Viselkedése nagyon hasonlít a háztartási macskákéhoz – tudod, az a fajta, amely csendben ül, majd hirtelen rád csap?


ChatGPT, amikor feltesz neki egy egyszerű kérdést


A macskáink és a mesterséges intelligencia is élvezik a kiszámíthatatlanságot:


  • Ugyanazt az ételt (vagy adatot) adsz nekik – néha esznek, néha figyelmen kívül hagyják.
  • Megtanítod őket válaszolni, de csak alkalmanként reagálnak, amikor hívod őket.
  • Minél nagyobb és vadabb a macska vagy minél nagyobb az AI-modell, annál nehezebb megjósolni a viselkedését.
  • Reggel a macskák nyugodtak lehetnek; estére hiperaktívvá válnak (akárcsak a dinamikus adatok).
  • A macskák barátságosak (determinisztikusak), de figyelmeztetés nélkül megkarcolhatnak (sztochasztikusak).


Kíváncsi lehet, mit jelent a determinizmus és a sztochaszticitás – nézzük meg.

Determinizmus és sztochaszticitás

Egy determinisztikus rendszer mindig ugyanazt az eredményt adja ugyanazzal a bemenettel – gondoljon az idempotenciára , ha Ön DevOps mérnök . Valós példa lehet a macskád, amely minden alkalommal ugyanannyi ételt eszik meg, amit a tálkába teszel – ez a determinizmus . De amikor a macska szimatol, és csak a felét eszi meg, az már nem determinisztikus.


Várt kimenet (üres tál) vs. tényleges teljesítmény


A sztochasztikus folyamat magában foglalja a véletlenszerűség elemét: ugyanazzal a bemenettel az eredmény változhat. Például egy gépi tanulási modell gyakran használ sztochasztikus algoritmusokat, például a sztochasztikus gradiens süllyedést (SGD) , amely a modellt úgy tanítja meg, hogy véletlenszerű adatdarabokat választ ki a teljes adatkészlet helyett.


Ezek a meghatározások nem magyarázzák meg teljesen, hogy mesterséges intelligenciaink néha miért hallucinálnak és miért viselkednek kaotikusan. Vannak más tényezők is, köztük a következők:


  • Determinizmus
  • Sztochaszticitás
  • Kerekítési hibák és lebegőpontos aritmetika
  • Többszálú és párhuzamos számítások
  • Az adatok folyamatos frissítése
  • A káosz és a „pillangó effektus”


Ha egy kicsit közelebbről megnézzük, más mechanizmusokat is láthatunk, amelyek befolyásolják az AI modellek kiszámíthatatlan viselkedését.

Egy pillantás a neurális hálózatokra

Valószínűleg tudja, hogy a mindenki által használt mesterséges intelligencia különféle neurális hálózati algoritmusokra támaszkodik. Íme néhány típusú neurális hálózat:


  • Teljesen összekapcsolt neurális hálózatok (FCNN): Klasszikus architektúra, amelyben minden neuron a következő réteg minden neuronjához kapcsolódik.


  • Konvolúciós neurális hálózatok (CNN-ek): Ezek a hálózatok konvolúciókat vagy szűrőket használnak, amelyek kiemelik a kép jellemzőit, például éleket, textúrákat és formákat.


  • Ismétlődő neurális hálózatok (RNN-ek ): Ezek a hálózatok visszacsatoló hurokkal rendelkeznek, amelyek lehetővé teszik számukra, hogy emlékezzenek az előző lépésekre (nevezetesen emlékeznek a sorozatokra).


  • Long Short-Term Memory (LSTM): Az RNN-ek továbbfejlesztett változata a fontos adatok szelektív elfelejtésére és emlékezésére.


  • Transformers : A legerősebb osztály a szövegfeldolgozáshoz. Többfejű figyelmet használnak, ami lehetővé teszi számukra, hogy a teljes kontextust egyszerre vegyék figyelembe.


  • Generatív ellenséges hálózatok (GAN): Két hálózatból állnak, amelyek közül az egyik adatokat generál, a másik pedig értékeli annak minőségét. Versenyük jobb eredményekhez vezet.


  • Automatikus kódolók : Az információk tömörítésére (kódolására), majd rekonstruálására (dekódolására) tervezett hálózatok.


  • Graph Neural Networks (GNN-ek): Grafikonokkal (csomópontokkal és élekkel) dolgoznak, nem pedig normál adatokkal.


Mindezekre az összefüggésekre szükségünk van ahhoz, hogy megértsük, miért hallucinál gyakran a leggyakoribb modell, a ChatGPT.

Hogyan történnek az AI hallucinációk

A ChatGPT a Transformer architektúrán fut, amelyet először a 2017-es „A figyelem minden, amire szüksége van” című dokumentumban mutattak be. Ez az a mechanizmus, amely forradalmasította a szövegfeldolgozást. A transzformátorok az önfigyelem mechanizmuson működnek, ami lehetővé teszi számukra, hogy a globális kontextust vegyék figyelembe, ne csak a legközelebbi szavakat, mint például a régebbi visszatérő neurális hálózatok (LSTM és GRU). A modell a GPT (Generative Pre-Trained Transformer) sorozathoz tartozik, ami azt jelenti:


  • Előképzett: Kezdetben hatalmas mennyiségű szövegre (könyvekre, cikkekre, webhelyekre és kódokra) képezték ki.
  • Generatív: Feladata szöveggenerálás, nem csak tények osztályozása vagy kivonatolása.


A ChatGPT válaszai egy sztochasztikus folyamat eredménye, nem pedig egy merev szabály. Nem memorizál és nem reprodukál szövegeket, hanem valószínűségi modell segítségével generál válaszokat.

A szójóslás mint valószínűségi folyamat

Amikor a ChatGPT válaszol, nem választja ki az egyetlen helyes szót, hanem kiszámítja a valószínűségi eloszlást.


P(wi|w1, w2, ..., wi-1), ahol:

  • „wi” – a következő szó a mondatban

w1, w2, ..., wi-1 — az előző szavak

  • P(wi|w1, ..., wi-1) – annak a valószínűsége, hogy „wi” lesz a következő szó


Például, ha azt kérdezi: „Milyen nap van ma?” A ChatGPT eltérő valószínűséggel rendelkezhet:


  • „Hétfő” – P=0,7
  • „szerda” — P=0,2
  • „42” – P=0,0001


Leggyakrabban a legnagyobb valószínűségű szót választja, de a generálási hőmérséklet (egy véletlenszerűséget szabályozó paraméter) miatt néha előfordulhat, hogy a kontextus alapján egy kevésbé valószínű lehetőséget választ.

Kontextusbefolyásolás és információfeledés

A ChatGPT korlátozott környezetablakkal működik, ami azt jelenti, hogy csak az utolsó NN tokenekre "emlékezik". A GPT-4 esetében a kontextusablak körülbelül 128 000 token (körülbelül 300 oldalnyi szöveg). Ha a fontos információ kívül esik ezen a kontextuson, akkor:


  • Felejtsd el a részleteket (kontextus kivágási effektus)
  • Smink információk (sztochasztikus folyamat)


Ennek ellenére a ChatGPT gyakran ki tudja javítani a választ, miután megkérdezi, hogy biztos-e benne. A ChatGPT azonban gyakran ki tudja javítani a választ, ha megkérdezi, hogy biztos-e.

Az AI néha kijavítja önmagát, de miért?

Amikor megkérdezi a ChatGPT-t: „Biztos benne?” válaszát egy olyan új kontextus segítségével elemzi újra, ahol kétség van jelen. Ennek eredménye:


  • Válaszvalószínűség újraszámítása.
  • Valósíthatóbb lehetőség választása, ha van ilyen.


Ez a folyamat a Bayes-féle valószínűséggel magyarázható.


P(A|B) = P(B|A)P(A) / P(B), ahol:


  • P(A|B) – annak a valószínűsége, hogy az A válasz helyes, figyelembe véve a B utókérdést.

  • P(B|A) – annak a valószínűsége, hogy Ön megkérdezte volna, hogy a ChatGPT kezdetben igaza volt-e.

  • P(A) – a ChatGPT válaszának kezdeti valószínűsége.

  • P(B) – az általános valószínűség, hogy Ön megkérdezi.


Túl sok az információ neked? Az agy túlmelegedése? Képzelje el, hogy az AI-kat is túlterheli a nagy mennyiségű információ.

Túlillesztés és zajos adatok miatti hibák

Hatalmas mennyiségű szöveges adat áramlik be a ChatGPT képzésébe, beleértve a zajt vagy az egymásnak ellentmondó információkat, mint például:


  • Egyes források szerint a Föld kerek, míg mások laposnak mondják.


  • Az AI nem mindig tudja meghatározni, hogy melyik információ igaz, ha változó valószínűséggel jelenik meg.


A ChatGPT feldolgozása ellentmondó adatok lehetnek


Ezek példák a modell-hallucinációkra, amelyek azért fordulnak elő, mert a ChatGPT súlyozását valószínűségi szóasszociációkra tanítják, nem pedig szigorú logikára.

A lényeg

Íme, mit tanulhatunk ebből. A ChatGPT hallucinál azóta:


  • Valószínűleg jósol, nem determinisztikusan.

  • Korlátozott memóriával rendelkezik (kontextus ablak).

  • Kérdés esetén újraszámítja a valószínűségeket.

  • Olyan edzési adatokat tartalmaz, amelyek zajt és ellentmondásokat tartalmaznak.


Ez így egyértelmű. Remélem nem fáradtál el. Ha igen, az jó jel, mert ez azt jelenti, hogy kritikusan gondolkodik, és pontosan ezt kell tennünk, amikor AI-val dolgozunk.

L O A D I N G
. . . comments & more!

About Author

Alexander Simonov HackerNoon profile picture
Alexander Simonov@alexandersimonov
Alexander Simonov is the Deputy DevOps Practice Lead at Coherent Solutions. He has written bylines for DZone, The New Stack, and is a 2024 DevOps Dozen Award honoree, recognized by DevOps.com.

HANG TAGOK

EZT A CIKKET BEMUTATTA...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks