El no determinismo de la IA, las alucinaciones y... ¿los gatos?

Durante mucho tiempo, los especialistas en TI trabajaron sin preocupaciones. Desarrollaban, construían e implementaban software sin problemas. Luego llegó la era del aislamiento y, de repente, se aburrieron (por supuesto, esta es una versión lúdica de los hechos reales). Los especialistas en TI querían crear algo que pudiera manejar su trabajo mientras se quedaban en casa: responder preguntas rutinarias, generar avatares geniales y analizar grandes cantidades de datos en minutos. Soñaban con viajar a un lugar fantástico y, por eso, lo adivinaste, revolucionaron la IA.

La IA ya está funcionando, brindando respuestas y mejorando vidas. Por muy hábil que sea la ayuda, la IA solo es verdaderamente eficaz cuando se la utiliza en el contexto adecuado.

Estamos presenciando un rápido progreso en las aplicaciones de la IA, desde la generación de imágenes y vídeos hasta la previsión de los mercados bursátiles y el análisis de criptomonedas. Sin embargo, la IA puede ofrecer información que no pedimos o dar respuestas descaradamente falsas. Su comportamiento es muy parecido al de los gatos domésticos, ya sabes, de esos que se sientan en silencio y de repente te atacan.

A nuestros gatos, al igual que a la IA, les gusta ser impredecibles:

Les das la misma comida (o datos): a veces la comen, a veces la ignoran.
Los entrenas para responder, pero sólo ocasionalmente reaccionan cuando los llamas.
Cuanto más grande y salvaje sea el gato o más grande el modelo de IA, más difícil será predecir su comportamiento.
Por la mañana, los gatos pueden estar tranquilos; por la noche, se vuelven hiperactivos (como los datos dinámicos).
Los gatos pueden ser amigables (determinista) pero pueden arañarte sin previo aviso (estocástico).

Quizás te preguntes qué significan determinismo y estocasticidad: averigüémoslo.

Determinismo y estocasticidad

Un sistema determinista siempre produce el mismo resultado con la misma entrada (si eres ingeniero de DevOps , piensa en la idempotencia) . Un ejemplo real sería el de tu gato, que come la misma cantidad de comida que le pones en su plato cada vez (esto es determinismo) . Pero cuando el gato huele y solo come la mitad, ya no es determinista.

Un proceso estocástico incluye un elemento de aleatoriedad: con la misma entrada, el resultado puede variar. Por ejemplo, un modelo de aprendizaje automático suele utilizar algoritmos estocásticos, como el Descenso de gradiente estocástico (SGD) , que entrena el modelo seleccionando fragmentos aleatorios de datos en lugar de todo el conjunto de datos.

Estas definiciones no explican por completo por qué nuestras IA a veces alucinan y se comportan de manera caótica. Existen otros factores que contribuyen, entre ellos los siguientes:

Determinismo
Estocasticidad
Errores de redondeo y aritmética de punto flotante
Cálculos multiproceso y paralelos
Actualización continua de datos
El caos y el “efecto mariposa”

Si miramos un poco más de cerca, veremos otros mecanismos que influyen en el comportamiento impredecible de los modelos de IA.

Una mirada a las redes neuronales

Probablemente sepas que las IA que todos utilizamos se basan en varios algoritmos de redes neuronales. Estos son algunos tipos de redes neuronales:

Redes neuronales completamente conectadas (FCNN): una arquitectura clásica donde cada neurona se conecta a todas las neuronas de la siguiente capa.

Redes neuronales convolucionales (CNN): estas redes utilizan convoluciones o filtros que resaltan características de la imagen, como bordes, texturas y formas.

Redes neuronales recurrentes (RNN ): estas redes tienen bucles de retroalimentación que les permiten recordar pasos anteriores (es decir, recuerdan secuencias).

Memoria a Largo Plazo-Corto Plazo (LSTM): una versión mejorada de las RNN con mecanismos para olvidar y recordar selectivamente datos importantes.

Transformadores : la clase más potente para el procesamiento de texto. Utilizan la atención de múltiples cabezas, lo que les permite considerar todo el contexto simultáneamente.

Redes generativas antagónicas (GAN): están formadas por dos redes, una de las cuales genera datos y la otra evalúa su calidad. Su competencia conduce a mejores resultados.

Autocodificadores : Redes diseñadas para comprimir (codificar) información y luego reconstruirla (decodificarla).

Redes neuronales gráficas (GNN): trabajan con gráficos (nodos y aristas) en lugar de datos regulares.

Necesitamos todo ese contexto para entender por qué el modelo más común, ChatGPT, a menudo alucina.

Cómo se producen las alucinaciones de la IA

ChatGPT se ejecuta en la arquitectura Transformer , presentada por primera vez en el artículo de 2017, “Attention Is All You Need”. Este es el mismo mecanismo que revolucionó el procesamiento de texto. Los Transformers operan con el mecanismo de autoatención, que les permite considerar el contexto global en lugar de solo las palabras más cercanas como lo hacen las redes neuronales recurrentes más antiguas (LSTM y GRU). El modelo pertenece a la serie GPT (Transformador preentrenado generativo), lo que significa:

Preentrenado: inicialmente se entrenó con enormes cantidades de texto (libros, artículos, sitios web y código).
Generativo: Su tarea es generar texto, no sólo clasificar o extraer hechos.

Las respuestas de ChatGPT son el resultado de un proceso estocástico y no de una regla rígida. No memoriza ni reproduce textos, sino que genera respuestas utilizando un modelo probabilístico.

La predicción de palabras como proceso probabilístico

Cuando ChatGPT responde, no elige la única palabra correcta, sino que calcula una distribución de probabilidad.

P(wi|w1, w2, ..., wi-1), donde:

“wi” — la siguiente palabra en la oración

w1, w2, ..., wi-1 — las palabras anteriores

P(wi|w1, ..., wi-1) — la probabilidad de que “wi” sea la siguiente palabra

Por ejemplo, si preguntas "¿Qué día es hoy?", ChatGPT podría tener diferentes probabilidades:

“Lunes” — P=0,7
“Miércoles” — P=0,2
“42” — P=0,0001

Generalmente elegirá la palabra con mayor probabilidad, pero debido a la temperatura de generación (un parámetro que controla la aleatoriedad), a veces puede elegir una opción menos probable según el contexto.

Influencia del contexto y olvido de información

ChatGPT funciona con una ventana de contexto limitada, lo que significa que solo "recuerda" los últimos tokens NN. Para GPT-4, la ventana de contexto tiene alrededor de 128k tokens (alrededor de 300 páginas de texto). Si hay información importante fuera de este contexto, puede:

Olvidar detalles (efecto de recorte de contexto)
Información de maquillaje (proceso estocástico)

Sin embargo, ChatGPT puede corregir su respuesta con frecuencia después de que le preguntes si está seguro. Sin embargo, ChatGPT puede corregir su respuesta con frecuencia si le preguntas si está seguro.

La IA a veces se corrige sola, pero ¿por qué?

Cuando le preguntas a ChatGPT "¿Estás seguro?", vuelve a analizar su respuesta utilizando un nuevo contexto en el que hay dudas. Esto da como resultado:

Recálculo de probabilidades de respuesta.
Elegir una opción más plausible si existe.

Este proceso puede explicarse mediante la probabilidad bayesiana.

P(A|B) = P(B|A)P(A) / P(B), donde:

P(A|B) — la probabilidad de que la respuesta A sea correcta, considerando la pregunta de seguimiento B.
P(B|A) — la probabilidad de que usted hubiera preguntado si ChatGPT inicialmente tenía razón.
P(A) — la probabilidad inicial de la respuesta de ChatGPT.
P(B) — la probabilidad general de que usted pregunte.

¿Demasiada información para ti? ¿Sobrecalentamiento cerebral? Imagina que las IA también se ven abrumadas por grandes cantidades de información.

Errores debidos a sobreajuste y datos ruidosos

En el entrenamiento de ChatGPT fluyen cantidades masivas de datos de texto, incluidos ruido o información contradictoria, como:

Algunas fuentes dicen que la Tierra es redonda, mientras que otras afirman que es plana.

La IA no siempre puede determinar qué información es verdadera cuando aparece con distintas probabilidades.

Estos son ejemplos de alucinaciones de modelos, que ocurren porque los pesos de ChatGPT se entrenan en asociaciones probabilísticas de palabras en lugar de lógica estricta.

El resultado final

Esto es lo que podemos aprender de esto. ChatGPT alucina porque:

Predice probabilísticamente, no determinísticamente.
Tiene una memoria limitada (ventana de contexto).
Recalcula las probabilidades cuando se le pregunta.
Tiene datos de entrenamiento que incluyen ruido y contradicciones.

Es así de sencillo. Espero que no te hayas cansado. Si es así, es una buena señal porque significa que estás pensando de forma crítica, que es exactamente lo que deberíamos hacer cuando trabajamos con IA.

El no determinismo de la IA, las alucinaciones y... ¿los gatos?

Demasiado Largo; Para Leer

Determinismo y estocasticidad

Una mirada a las redes neuronales

Cómo se producen las alucinaciones de la IA

La predicción de palabras como proceso probabilístico

Influencia del contexto y olvido de información

La IA a veces se corrige sola, pero ¿por qué?

Errores debidos a sobreajuste y datos ruidosos

El resultado final

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Categories

Trending Topics

El no determinismo de la IA, las alucinaciones y... ¿los gatos?

Demasiado Largo; Para Leer

Determinismo y estocasticidad

Una mirada a las redes neuronales

Cómo se producen las alucinaciones de la IA

La predicción de palabras como proceso probabilístico

Influencia del contexto y olvido de información

La IA a veces se corrige sola, pero ¿por qué?

Errores debidos a sobreajuste y datos ruidosos

El resultado final

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics