Durante mucho tiempo, los especialistas en TI trabajaron sin preocupaciones. Desarrollaban, construían e implementaban software sin problemas. Luego llegó la era del aislamiento y, de repente, se aburrieron (por supuesto, esta es una versión lúdica de los hechos reales). Los especialistas en TI querían crear algo que pudiera manejar su trabajo mientras se quedaban en casa: responder preguntas rutinarias, generar avatares geniales y analizar grandes cantidades de datos en minutos. Soñaban con viajar a un lugar fantástico y, por eso, lo adivinaste, revolucionaron la IA.
La IA ya está funcionando, brindando respuestas y mejorando vidas. Por muy hábil que sea la ayuda, la IA solo es verdaderamente eficaz cuando se la utiliza en el contexto adecuado.
Estamos presenciando un rápido progreso en las aplicaciones de la IA, desde la generación de imágenes y vídeos hasta la previsión de los mercados bursátiles y el análisis de criptomonedas. Sin embargo, la IA puede ofrecer información que no pedimos o dar respuestas descaradamente falsas. Su comportamiento es muy parecido al de los gatos domésticos, ya sabes, de esos que se sientan en silencio y de repente te atacan.
A nuestros gatos, al igual que a la IA, les gusta ser impredecibles:
Quizás te preguntes qué significan determinismo y estocasticidad: averigüémoslo.
Un sistema determinista siempre produce el mismo resultado con la misma entrada (si eres ingeniero de DevOps , piensa en la idempotencia) . Un ejemplo real sería el de tu gato, que come la misma cantidad de comida que le pones en su plato cada vez (esto es determinismo) . Pero cuando el gato huele y solo come la mitad, ya no es determinista.
Un proceso estocástico incluye un elemento de aleatoriedad: con la misma entrada, el resultado puede variar. Por ejemplo, un modelo de aprendizaje automático suele utilizar algoritmos estocásticos, como el Descenso de gradiente estocástico (SGD) , que entrena el modelo seleccionando fragmentos aleatorios de datos en lugar de todo el conjunto de datos.
Estas definiciones no explican por completo por qué nuestras IA a veces alucinan y se comportan de manera caótica. Existen otros factores que contribuyen, entre ellos los siguientes:
Si miramos un poco más de cerca, veremos otros mecanismos que influyen en el comportamiento impredecible de los modelos de IA.
Probablemente sepas que las IA que todos utilizamos se basan en varios algoritmos de redes neuronales. Estos son algunos tipos de redes neuronales:
Necesitamos todo ese contexto para entender por qué el modelo más común, ChatGPT, a menudo alucina.
ChatGPT se ejecuta en la arquitectura Transformer , presentada por primera vez en el artículo de 2017, “Attention Is All You Need”. Este es el mismo mecanismo que revolucionó el procesamiento de texto. Los Transformers operan con el mecanismo de autoatención, que les permite considerar el contexto global en lugar de solo las palabras más cercanas como lo hacen las redes neuronales recurrentes más antiguas (LSTM y GRU). El modelo pertenece a la serie GPT (Transformador preentrenado generativo), lo que significa:
Las respuestas de ChatGPT son el resultado de un proceso estocástico y no de una regla rígida. No memoriza ni reproduce textos, sino que genera respuestas utilizando un modelo probabilístico.
Cuando ChatGPT responde, no elige la única palabra correcta, sino que calcula una distribución de probabilidad.
P(wi|w1, w2, ..., wi-1), donde:
w1, w2, ..., wi-1 — las palabras anteriores
Por ejemplo, si preguntas "¿Qué día es hoy?", ChatGPT podría tener diferentes probabilidades:
Generalmente elegirá la palabra con mayor probabilidad, pero debido a la temperatura de generación (un parámetro que controla la aleatoriedad), a veces puede elegir una opción menos probable según el contexto.
ChatGPT funciona con una ventana de contexto limitada, lo que significa que solo "recuerda" los últimos tokens NN. Para GPT-4, la ventana de contexto tiene alrededor de 128k tokens (alrededor de 300 páginas de texto). Si hay información importante fuera de este contexto, puede:
Sin embargo, ChatGPT puede corregir su respuesta con frecuencia después de que le preguntes si está seguro. Sin embargo, ChatGPT puede corregir su respuesta con frecuencia si le preguntas si está seguro.
Cuando le preguntas a ChatGPT "¿Estás seguro?", vuelve a analizar su respuesta utilizando un nuevo contexto en el que hay dudas. Esto da como resultado:
Este proceso puede explicarse mediante la probabilidad bayesiana.
P(A|B) = P(B|A)P(A) / P(B), donde:
P(A|B) — la probabilidad de que la respuesta A sea correcta, considerando la pregunta de seguimiento B.
P(B|A) — la probabilidad de que usted hubiera preguntado si ChatGPT inicialmente tenía razón.
P(A) — la probabilidad inicial de la respuesta de ChatGPT.
P(B) — la probabilidad general de que usted pregunte.
¿Demasiada información para ti? ¿Sobrecalentamiento cerebral? Imagina que las IA también se ven abrumadas por grandes cantidades de información.
En el entrenamiento de ChatGPT fluyen cantidades masivas de datos de texto, incluidos ruido o información contradictoria, como:
Estos son ejemplos de alucinaciones de modelos, que ocurren porque los pesos de ChatGPT se entrenan en asociaciones probabilísticas de palabras en lugar de lógica estricta.
Esto es lo que podemos aprender de esto. ChatGPT alucina porque:
Predice probabilísticamente, no determinísticamente.
Tiene una memoria limitada (ventana de contexto).
Recalcula las probabilidades cuando se le pregunta.
Tiene datos de entrenamiento que incluyen ruido y contradicciones.
Es así de sencillo. Espero que no te hayas cansado. Si es así, es una buena señal porque significa que estás pensando de forma crítica, que es exactamente lo que deberíamos hacer cuando trabajamos con IA.