1,219 lecturas

La paradoja de la generalización de una sola muestra: por qué la IA generativa tiene dificultades con la nueva información

por Ashish Pawar8m2024/11/10

Demasiado Largo; Para Leer

La IA generativa, como GPT-4, es extraordinaria a la hora de generar texto a partir de grandes cantidades de datos, pero falla cuando se enfrenta a información nueva y desconocida. Esta “paradoja de generalización de una sola vez” demuestra que, a pesar de su potencia, los modelos de IA actuales se basan en patrones preexistentes y tienen dificultades para realizar tareas novedosas. Exploramos las razones que hay detrás de esto (desde las limitaciones de la arquitectura de transformadores hasta las representaciones de vectores densos) y analizamos soluciones prometedoras como el metaaprendizaje y las arquitecturas neurosimbólicas para permitir una verdadera generalización en IA.

featured image - La paradoja de la generalización de una sola muestra: por qué la IA generativa tiene dificultades con la nueva información

La IA generativa ha sido un auténtico torbellino tecnológico. Modelos como GPT-4 han conquistado el mundo con su capacidad surrealista de generar textos que imitan conversaciones humanas, escribir ensayos, codificar e incluso idear soluciones creativas para algunas tareas bastante complejas. Nos estamos acercando cada vez más a un futuro asistido por IA, en el que nuestros asistentes digitales comprenderán y responderán a nuestras necesidades sin esfuerzo. Es suficiente para que cualquiera crea en ello, ¿no?

Bueno, casi… pero no del todo.

Verá, debajo del brillo de la producción deslumbrante de GPT y su fineza gramatical hay una limitación fundamental, una que vuelve locos a muchos de nosotros los tecnólogos: la IA generativa tiene dificultades para manejar información completamente nueva, especialmente en escenarios de aprendizaje de una sola vez. Este problema aparentemente simple (pero frustrante) revela una brecha central en los sistemas de IA actuales. A pesar de ser capaces de sintetizar pasajes impresionantes de miles de millones de puntos de datos, cuando se les asigna una novedad real (algo que no ha visto antes ni en lo que se ha entrenado), los modelos de estilo GPT se topan con un muro inherente.

Esto pinta un cuadro de lo que yo llamo la “paradoja de generalización de una sola vez” : no importa cuán poderosos, no importa cuán “inteligentes” parezcan los sistemas de IA como GPT, se desmoronan cuando se les requiere generalizar rápidamente a partir de un solo ejemplo o un pequeño puñado de ejemplos invisibles.

Analicemos un poco esta paradoja y profundicemos en el porqué de la misma. Pero no se preocupen, no nos quedaremos en lo puramente filosófico: nos adentraremos en el fango técnico y exploraremos qué es exactamente lo que impide que nuestras IA de la generación actual igualen esa flexibilidad mágica que tenemos los humanos cuando nos enfrentamos a lo desconocido.

La magia y el mecanismo de los modelos generativos… hasta que se rompen

La brillantez fundamental de modelos como GPT-4 se basa en una sofisticada arquitectura Transformer , conocida por impulsar todo, desde modelos de lenguaje hasta tareas de visión. Ahora bien, no quiero abrumarlos con jerga al principio de este artículo (recién estamos comenzando), pero es necesario analizar algunas capas técnicas para entender dónde y por qué comienzan a aparecer las grietas.

Para empezar, GPT pertenece a una familia de modelos basados en secuencias , entrenados para predecir la siguiente palabra o token en cualquier fragmento de texto. ¿Cómo se vuelven tan buenos en esto? En gran parte, se debe al mecanismo de autoatención integrado en Transformer , que permite a estos modelos filtrar cantidades masivas de texto y, esencialmente, "concentrarse" en las partes importantes de una oración mientras también observan palabras en toda la secuencia. Este mecanismo de atención global se convirtió rápidamente en la columna vertebral para capturar el significado sensible al contexto en grandes porciones de texto.

Pero aquí está el quid de la paradoja: la IA generativa depende en gran medida de estos datos de entrenamiento. Es excepcional a la hora de reconocer patrones y relaciones estadísticas entre tokens en los datos que ha visto antes, pero también depende inherentemente de esos datos. Cuando se lanzó el modelo, GPT-4 en realidad no había aprendido a razonar ni a desarrollar una comprensión del mundo. En cambio, está aprovechando las asociaciones que ha recogido en miles de millones de ejemplos de texto que se encuentran en línea (en libros, Wikipedia, hilos de Reddit, artículos académicos... lo que sea).

Así, aunque GPT pueda parecer un oráculo que todo lo ve y genera textos coherentes y a veces reveladores, lo que en realidad hace es jugar un impresionante juego de comparación de patrones probabilísticos. ¿Qué significa? Cuando aparece algo nuevo (como un nuevo artículo científico sobre mecánica cuántica o alguna jerga específica de un sector específico), le resulta muy difícil encontrarle un sentido.

Eso... no tiene sentido.

Espera. ¿Pero por qué no puede generalizar como los humanos?

Ahora bien, en esto los humanos se diferencian significativamente de las máquinas. Imagina que estás leyendo por primera vez sobre un concepto que está totalmente fuera de tu experiencia. Tal vez seas el fundador de una empresa tecnológica emergente que se adentra en el mundo de la ingeniería mecánica. Seguro que no logras conectar todos los puntos en la primera lectura, pero después de echar un vistazo a un puñado de ejemplos o diagramas, se te encenderán algunas luces intuitivas. ¡Ajá, esto es un sistema de control! ¡Esto se conecta con aquello! Y entonces, hete aquí, lo entiendes (o al menos la mayor parte).

Este matiz se llama generalización de una sola vez : la capacidad de captar rápidamente patrones o comprender información totalmente nueva a partir de ejemplos mínimos. Y es algo en lo que los humanos somos excepcionalmente buenos. Tomamos un pequeño fragmento de conocimiento y lo relacionamos intuitivamente con temas, estructuras o analogías más amplios que ya conocemos. En otras palabras, no necesitamos un millón de ejemplos ni un vasto corpus de datos pasados para tener una epifanía.

En contraste, los modelos generativos no tienen ningún conocimiento innato del mundo. Se mueven aleatoriamente por el espacio estadístico y hacen predicciones basadas en qué palabras o estructuras tienen más probabilidades de coexistir. Por eso, cuando se les pide que manejen algo completamente nuevo (un término científico completamente nuevo, una teoría completamente nueva que nunca se publicó en línea), se topan de frente con un muro. En pocas palabras, no se han encontrado con eso antes y carecen de marcos conceptuales genuinos para dar saltos en territorio desconocido.

Está bien, esto es bastante abstracto. Déjame explicarlo con más detalle.

Los modelos de IA generativa aprenden interpolando entre puntos de datos existentes. Es decir, se vuelven expertos en llenar los vacíos entre los puntos que ya han visto y los patrones con los que están familiarizados, pero tienen dificultades con la extrapolación , es decir, saltar y hacer proyecciones basadas en un nuevo concepto cuando los datos de entrenamiento carecen de precedentes. Por ejemplo, GPT-4 puede manejar construcciones lingüísticas "regulares" en el lenguaje cotidiano de manera espléndida porque hay millones de ejemplos disponibles. Pero, si se agrega una solicitud de ideas emergentes e hiperespecializadas (por ejemplo, los detalles de los avances recientes en láseres de fibra solitónicos en física) y ¡boom!: un galimatías absoluto. ¿Por qué? GPT no tiene ningún punto de referencia estadístico para esos términos novedosos y de nicho. Básicamente, tiene conjeturas fundamentadas que, aunque plausibles en fluidez, sacrifican la coherencia real por la corrección sintáctica .

El núcleo técnico del problema

Muy bien, si tienes un poco más de conocimientos técnicos, profundicemos en por qué esta limitación es tan persistente y qué sucede bajo el capó durante los intentos de aprendizaje de una sola vez.

Un problema central con la generalización de una sola muestra es la información que el modelo representa internamente durante su entrenamiento autosupervisado . Los modelos de estilo GPT se comportan bastante bien cuando trabajan dentro de límites, un fenómeno que a menudo se describe como aprendizaje en distribución . Dentro de los límites de los temas para los que ha visto ejemplos de entrenamiento lo suficientemente amplios, incluso GPT-4 puede producir resultados inquietantemente reveladores. Esto se debe a que la estructura del modelo le permite codificar información a través de representaciones vectoriales densas (en forma de incrustaciones contextualizadas ) que capturan asociaciones entre palabras y conceptos.

Pero aquí es donde las cosas se complican. Cuando se le asigna al modelo una situación que requiere una generalización fuera de la distribución, es decir, se encuentra con un concepto con el que nunca antes se lo entrenó, el sistema no infiere cosas como lo hacen los humanos. Piénselo de esta manera: estos modelos son inherentemente máquinas de patrones que se basan en "intuiciones" estadísticas. No tienen la capacidad incorporada de crear o razonar "por encima de los datos".

Por ejemplo, pensemos en cómo aprende GPT las reglas gramaticales. Es como si alguien se sentara a memorizar miles de formas en que se usan las palabras en oraciones en inglés. Después de suficiente observación, el sistema construye un mapa interno que sabe: “Ah, después de un sujeto viene un verbo, luego tal vez un objeto y, según sea necesario, un artículo o una preposición”. Pero cuando se le presenta un lenguaje completamente nuevo o estructuras de oraciones completamente nuevas, esta capacidad falla porque se limita a reconocer solo las relaciones latentes (o implícitas) que ya ha visto.

Lamentablemente, esto tiene sus límites. Tomemos una tarea en la que se necesitaría generar un texto coherente sobre un tema no expuesto, digamos descubrimientos innovadores en un tema de física poco conocido como la dualidad cuántica-gravedad . El modelo carece de la composicionalidad requerida para reinterpretar el conocimiento anterior para inferir nuevas posibilidades. En nuestros cerebros humanos, siempre tenemos representaciones de nivel superior (¡conceptos, teorías, analogías!) que nos dan flexibilidad. ¡La GPT, sin embargo, no! Produce resultados basados en la probabilidad predictiva , no en saltos creativos.

Es como conducir con un mapa preprogramado solo para rutas del siglo pasado: no te ayuda a navegar por carreteras en construcción ni por giros y vueltas que aparecieron en los últimos seis meses.

Poniéndonos técnicos: por qué esto sucede bajo el capó

Un paso hacia la comprensión de la limitación es reconocer el papel de las representaciones densas y dispersas .

¿Qué quiero decir con esto?

Los modelos de transformadores tradicionales funcionan con incrustaciones de vectores densos . Cada elemento de una oración está representado por vectores de alta dimensión, y estos vectores capturan una amplia gama de relaciones entre palabras (estructuras sintácticas, significados semánticos, dinámica posicional, etc.). Pero como estas representaciones son densas, no están lo suficientemente desenredadas como para admitir la abstracción de una manera que conduzca a una generalización flexible y adaptativa.

Las incrustaciones densas están limitadas por un equilibrio entre sesgo y varianza durante el entrenamiento del modelo. Este equilibrio es importante: al optimizar una cosa (competencia estadística general), el modelo sacrifica otra cosa (la capacidad de razonar en situaciones totalmente nuevas). Imagine que adapta constantemente sus modelos mentales para que coincidan con precisión con el mundo que ya ha experimentado; el equilibrio es que los escenarios impredecibles lo desorientan por completo. Los modelos estadísticos intrincados pero rígidos naturalmente tienen dificultades con pequeños casos únicos porque se destacan por repetir el "escenario promedio" y se congelan ante las excepciones a las reglas aprendidas.

Una posible solución clave en este caso son las representaciones dispersas , técnicas para crear dimensionalidades que desenmarañen diversas características en diferentes niveles de interpretación. Las redes dispersas expresan y recuperan información de una manera más flexible y generalizada, de forma muy similar a la forma en que los humanos se centran en las características principales y fundamentales para predecir resultados en lugar de obsesionarse con detalles más pequeños.

Un problema con la generalización de una sola muestra es que las estructuras de red modernas no enfatizan esas tareas de desenredo, sino que se apoyan demasiado en patrones densos basados en datos. Por eso, cuando se les pide que generalicen material totalmente nuevo y único con un contexto mínimo, fracasan.

¿Qué podría solucionar esto?

Afortunadamente, no nos hemos quedado sin ideas. Los investigadores de IA (¡yo incluido!) hemos comenzado a teorizar sobre varias formas de mejorar las capacidades de generalización de una sola vez de la IA. Algunos de los enfoques más intrigantes giran en torno a las arquitecturas de metaaprendizaje . Estas arquitecturas son fundamentalmente diferentes de los modelos actuales, ya que permiten capacidades de aprendizaje a aprendizaje en las que el sistema adapta dinámicamente sus parámetros para adaptarse a nuevos tipos de datos rápidamente, mucho más en línea con el comportamiento humano.

En el metaaprendizaje agnóstico de modelos (MAML) , por ejemplo, un modelo se ajusta a sí mismo para aprender nuevas tareas con ejemplos de entrenamiento mínimos. Las redes neuronales aumentadas con memoria (MANN) funcionan de manera similar al retener el contexto aprendido en múltiples instancias, de manera similar a cómo recordamos lecciones importantes del pasado y las reutilizamos intuitivamente cuando nos encontramos con situaciones nuevas y similares.

La integración de capacidades de razonamiento simbólico en modelos de aprendizaje profundo es otro enfoque prometedor. Los modelos equipados con componentes simbólicos pueden "razonar" a través de la lógica, en lugar de depender únicamente de superposiciones estadísticas. Campos como la IA neurosimbólica ofrecen híbridos de modelos conexionistas y sistemas basados en reglas que permiten a las IA emular el pensamiento de orden superior, especialmente en escenarios de razonamiento abstracto.

¿El camino a seguir?

¿Qué significa todo esto para el futuro de la IA? Claro, GPT-4 parece mágico cuando nos brinda interacciones fluidas de servicio al cliente o responde preguntas típicas, pero necesitamos desarrollar modelos que no sean simplemente motores de memorización. Nos dirigimos hacia un futuro en el que el aprendizaje por transferencia , el metaaprendizaje y las arquitecturas neurosimbólicas convergen para crear estudiantes más adaptables.

La paradoja de la generalización de una sola muestra no es un callejón sin salida apocalíptico para la IA. Es un obstáculo que nos hace repensar los supuestos básicos sobre la inteligencia y la flexibilidad. Los datos por sí solos no solucionarán este problema: los modelos necesitarán la capacidad de aprender de abstracciones , crear analogías y recordar características básicas , no solo memorizar.

Nuestros modelos futuros deberán ser más humanos que máquinas en lo que se refiere a la síntesis de conocimientos. Y como investigadores, desarrolladores e innovadores de vanguardia, todavía estamos en las primeras etapas de la definición de lo que significa que la IA aprenda (por sí sola) en un mundo verdaderamente flexible y novedoso.

No se trata sólo de un desafío técnico, sino también filosófico.

L O A D I N G
. . . comments & more!

About Author

Ashish Pawar@pawarashishanil

Ashish Pawar is an experienced software engineer skilled in creating scalable software and AI-enhanced solutions across data-driven and cloud applications, with a proven track record at companies like Palantir, Goldman Sachs and WHOOP.

Read my stories