En el mundo de la IA en rápida evolución, los grandes modelos de lenguaje han recorrido un largo camino y cuentan con un conocimiento impresionante del mundo que nos rodea. Todavía
Los LLM son modelos informáticos capaces de comprender y generar texto similar al humano. Son la IA detrás de su asistente digital, la función de autocorrección e incluso algunos de sus correos electrónicos. Su conocimiento del mundo es a menudo inmenso, pero no es perfecto. Al igual que los humanos, los LLM pueden llegar al límite de su conocimiento pero, en lugar de detenerse, tienden a hacer conjeturas o "alucinar" para completar la tarea. Esto puede conducir a resultados que contienen información inexacta o engañosa.
En un mundo simple, la respuesta sería proporcionar al modelo información patentada relevante en el momento exacto en que se necesita, justo cuando se realiza la consulta. Pero determinar qué información es "relevante" no siempre es sencillo y requiere una comprensión de lo que se le ha pedido al LLM. Aquí es donde entra en juego RAG.
Los modelos integrados, en el mundo de la IA, actúan como traductores. Transforman documentos de texto en una gran lista de números, a través de un proceso conocido como "codificación de documentos". Esta lista representa la "comprensión" interna del LLM del significado del documento. Esta cadena de números se conoce como vector: una representación numérica de los atributos de un dato. Cada punto de datos se representa como un vector con muchos valores numéricos, donde cada valor corresponde a una característica o atributo específico de los datos.
Si bien una cadena de números puede parecer sin sentido para la persona promedio, estos números sirven como coordenadas en un espacio de alta dimensión. De la misma manera que la latitud y la longitud pueden describir una ubicación en un espacio físico, esta cadena de números describe la ubicación del texto original en el espacio semántico, el espacio de todos los significados posibles.
Tratar estos números como coordenadas nos permite medir la similitud de significado entre dos documentos. Esta medida se toma como la distancia entre sus respectivos puntos en el espacio semántico. Una distancia menor indicaría una mayor similitud en el significado, mientras que una distancia mayor sugiere una disparidad en el contenido. En consecuencia, la información relevante para una consulta se puede descubrir buscando documentos "cercanos" a la consulta en el espacio semántico. Esta es la magia de la búsqueda de similitud de vectores.
RAG es una __ arquitectura de IA generativa que aplica similitud semántica para descubrir automáticamente información relevante para una consulta.
En un sistema RAG, sus documentos se almacenan en una base de datos vectorial (DB). Cada documento se indexa en función de un vector semántico producido por un modelo de incrustación para que la búsqueda de documentos cercanos a un vector de consulta determinado se pueda realizar rápidamente. Básicamente, esto significa que a cada documento se le asigna una representación numérica (el vector), que indica su significado.
Cuando entra una consulta, se utiliza el mismo modelo de incrustación para producir un vector semántico para la consulta .
Luego, el modelo recupera documentos similares de la base de datos mediante la búsqueda de vectores, buscando documentos cuyos vectores estén cerca del vector de la consulta.
Una vez que se han recuperado los documentos relevantes, la consulta, junto con estos documentos, se utiliza para generar una respuesta del modelo. De esta manera, el modelo no tiene que depender únicamente de su conocimiento interno, sino que puede acceder a cualquier información que le proporcione en el momento adecuado. Por lo tanto, el modelo está mejor equipado para brindar respuestas más precisas y contextualmente apropiadas, al incorporar datos patentados almacenados en una base de datos que ofrece la búsqueda de vectores como característica.
Hay un puñado de las llamadas "bases de datos vectoriales" disponibles, que incluyen
Se puede aplicar un ajuste fino al codificador de consultas y al generador de resultados para optimizar el rendimiento. El ajuste fino es un proceso en el que los parámetros del modelo se ajustan ligeramente para adaptarse mejor a la tarea específica en cuestión.
El ajuste fino ofrece muchos beneficios para optimizar los LLM. Pero también tiene algunas limitaciones. Por un lado, no permite la integración dinámica de datos nuevos o propietarios. El conocimiento del modelo permanece estático después del entrenamiento, lo que lo lleva a alucinar cuando se le pregunta sobre datos fuera de su conjunto de entrenamiento. RAG, por otro lado, recupera e incorpora dinámicamente datos actualizados y patentados de una base de datos externa, lo que mitiga el problema de las alucinaciones y proporciona respuestas contextualmente más precisas. RAG le brinda control en el momento de la consulta sobre exactamente qué información se proporciona al modelo, lo que permite que las solicitudes se adapten a usuarios específicos en el momento exacto en que se realiza una consulta.
RAG también es computacionalmente más eficiente y flexible que el ajuste fino. El ajuste fino requiere que todo el modelo se vuelva a entrenar para cada actualización del conjunto de datos, una tarea que requiere mucho tiempo y recursos. Por el contrario, RAG solo requiere actualizar los vectores de documentos, lo que permite una gestión de la información más fácil y eficiente. El enfoque modular de RAG también permite el ajuste fino del mecanismo de recuperación por separado, lo que permite la adaptación a diferentes tareas o dominios sin alterar el modelo de lenguaje base.
RAG mejora el poder y la precisión de los modelos de lenguaje grandes, lo que lo convierte en una alternativa atractiva para el ajuste fino. En la práctica, las empresas tienden a utilizar RAG con más frecuencia que ajustes finos.
La integración de RAG en LLM no solo mejora la precisión de sus respuestas, sino que también maximiza su potencial. El proceso permite que los LLM se concentren en lo que se destacan en la generación inteligente de contenido a partir de un aviso. El modelo ya no es la única fuente de información porque RAG le proporciona conocimiento patentado relevante cuando es necesario, y el corpus de conocimiento accesible para el modelo puede expandirse y actualizarse sin costosos trabajos de capacitación del modelo.
En esencia, RAG actúa como un puente, conectando el LLM a una reserva de conocimiento que va más allá de sus capacidades internas. Como resultado, reduce drásticamente la tendencia del LLM a “alucinar” y proporciona un modelo más preciso y eficiente para los usuarios.
DataStax anunció recientemente la disponibilidad general de la capacidad de búsqueda de vectores en Astra DB. Aprende sobre eso
Por Ryan Michael, DataStax