IT-specialisten werkten lange tijd zorgeloos. Ze ontwikkelden, bouwden en implementeerden software soepel. Toen brak het tijdperk van isolatie aan en raakten ze plotseling verveeld (dit is natuurlijk een speelse kijk op de werkelijke gebeurtenissen). IT-mensen wilden iets creëren dat hun werk aankon terwijl ze thuisbleven: routinevragen beantwoorden, coole avatars genereren en enorme hoeveelheden data analyseren in minuten. Ze droomden ervan om naar een fantastische plek te reizen en dus, je raadt het al, revolutioneerden ze AI.
AI functioneert nu, biedt antwoorden en verbetert levens. Hoe bekwame assistent AI ook is, het is pas echt effectief als het in de juiste context wordt gebruikt.
We zijn getuige van snelle vooruitgang in AI-toepassingen, van het genereren van afbeeldingen en video's tot het voorspellen van de aandelenmarkt en het analyseren van cryptovaluta. Toch kan AI informatie bieden waar we niet om vragen of ronduit valse antwoorden geven. Het gedrag ervan lijkt erg op dat van huiskatten — weet je wel, het soort dat rustig zit en dan plotseling op je afkomt?
Onze katten, en ook AI, vinden het leuk om onvoorspelbaar te zijn:
U vraagt zich misschien af wat determinisme en stochasticiteit betekenen. Laten we daar eens achter komen.
Een deterministisch systeem produceert altijd hetzelfde resultaat bij dezelfde invoer — denk aan idempotentie als je een DevOps-engineer bent. Een voorbeeld uit de echte wereld is je kat die elke keer dezelfde hoeveelheid eten eet die jij in zijn bak hebt gedaan — dit is determinisme . Maar als de kat snuffelt en maar de helft eet, is het niet langer deterministisch.
Een stochastisch proces bevat een element van willekeur: met dezelfde invoer kan het resultaat variëren. Een machine learning-model gebruikt bijvoorbeeld vaak stochastische algoritmen, zoals Stochastic Gradient Descent (SGD) , die het model traint door willekeurige stukken data te kiezen in plaats van de hele dataset.
Deze definities verklaren niet volledig waarom onze AI's soms hallucineren en zich chaotisch gedragen. Er zijn andere bijdragende factoren, waaronder de volgende:
Als we wat beter kijken, zien we andere mechanismen die het onvoorspelbare gedrag van AI-modellen beïnvloeden.
U weet waarschijnlijk dat de AI's die iedereen gebruikt afhankelijk zijn van verschillende neurale netwerkalgoritmen. Hier zijn enkele typen neurale netwerken:
We hebben al die context nodig om te begrijpen waarom het meest voorkomende model, ChatGPT, vaak hallucinaties veroorzaakt.
ChatGPT draait op de Transformer -architectuur, die voor het eerst werd geïntroduceerd in het artikel uit 2017, "Attention Is All You Need." Dit is precies het mechanisme dat tekstverwerking revolutioneerde. Transformers werken op het self-attention-mechanisme, waarmee ze rekening kunnen houden met de globale context in plaats van alleen de dichtstbijzijnde woorden, zoals oudere recurrent neural networks (LSTM en GRU) doen. Het model behoort tot de GPT-serie (Generative Pre-Trained Transformer), wat betekent:
De antwoorden van ChatGPT zijn het resultaat van een stochastisch proces in plaats van een rigide regel. Het onthoudt of reproduceert geen teksten, maar genereert antwoorden met behulp van een probabilistisch model.
Wanneer ChatGPT reageert, kiest het niet het juiste woord, maar berekent het een waarschijnlijkheidsverdeling.
P(wi|w1, w2, ..., wi-1), waarbij:
w1, w2, ..., wi-1 — de vorige woorden
Als u bijvoorbeeld vraagt: "Welke dag is het vandaag?", kan ChatGPT verschillende waarschijnlijkheden hebben:
Meestal wordt het woord met de hoogste waarschijnlijkheid gekozen, maar vanwege de generatietemperatuur (een parameter die de willekeur bepaalt) kan het soms een minder waarschijnlijke optie kiezen op basis van de context.
ChatGPT werkt met een beperkt contextvenster, wat betekent dat het alleen de laatste NN-tokens "onthoudt". Voor GPT-4 is het contextvenster ongeveer 128k tokens (ongeveer 300 pagina's tekst). Als belangrijke informatie buiten deze context valt, kan het:
Toch kan ChatGPT vaak zijn antwoord corrigeren nadat je vraagt of het zeker is. Echter, ChatGPT kan vaak zijn antwoord corrigeren als je vraagt of het zeker is.
Wanneer u ChatGPT vraagt: "Weet u het zeker?", analyseert het zijn antwoord opnieuw met behulp van een nieuwe context waarin twijfel aanwezig is. Dit resulteert in:
Dit proces kan worden verklaard met behulp van de Bayesiaanse waarschijnlijkheid.
P(A|B) = P(B|A)P(A) / P(B), waarbij:
P(A|B) — de waarschijnlijkheid dat antwoord A juist is, rekening houdend met uw vervolgvraag B.
P(B|A) — de waarschijnlijkheid dat u in eerste instantie zou hebben gevraagd of ChatGPT gelijk had.
P(A) — de initiële waarschijnlijkheid van het antwoord van ChatGPT.
P(B) — de algehele waarschijnlijkheid die u zou vragen.
Te veel informatie voor je? Hersenen oververhit? Stel je voor dat AI's ook overweldigd raken door grote hoeveelheden informatie.
Er stromen enorme hoeveelheden tekstgegevens in de training van ChatGPT, inclusief ruis of tegenstrijdige informatie, zoals:
Dit zijn voorbeelden van modelhallucinaties, die optreden omdat de gewichten van ChatGPT worden getraind op waarschijnlijke woordassociaties in plaats van op strikte logica.
Dit is wat we hiervan kunnen leren. ChatGPT hallucineert omdat het:
Voorspelt op basis van waarschijnlijkheid, niet deterministisch.
Heeft een beperkt geheugen (contextvenster).
Herberekent waarschijnlijkheden bij twijfel.
Bevat trainingsgegevens die ruis en tegenstrijdigheden bevatten.
Zo eenvoudig is het. Ik hoop dat je niet moe bent geworden. Als dat wel zo is, is dat een goed teken, want het betekent dat je kritisch nadenkt, en dat is precies wat we zouden moeten doen als we met AI werken.