Nueva Historia

Detrás de los agentes de IA: la infraestructura que sustenta la autonomía

por DataStax11m2025/01/29

Demasiado Largo; Para Leer

Obtenga información sobre la infraestructura que respalda la orquestación a través de muchas partes móviles y un largo historial de datos y contexto necesarios para construir sistemas de agentes.

featured image - Detrás de los agentes de IA: la infraestructura que sustenta la autonomía

La mayoría de las descripciones de los agentes de IA y los sistemas agénticos se centran en la capacidad de los agentes de actuar de forma autónoma, sin la intervención del usuario, en muchas situaciones y en todos los casos de uso previstos para los agentes. Algunos agentes funcionan con un modelo de intervención humana, en el que interactúan con el usuario solo cuando se encuentran con incertidumbre, pero siguen actuando de forma autónoma en circunstancias típicas y determinadas.

Dado que la autonomía es la característica definitoria principal de los agentes de IA, existen capacidades de apoyo que los agentes necesitan para actuar independientemente de la información del usuario. una entrada de blog anterior Identificamos cuatro requisitos para las arquitecturas de IA agente:

Capacidad y acceso: la capacidad de actuar en nombre del usuario, incluidos los permisos y el acceso autenticado a los sistemas relevantes.
Razonamiento y planificación: utilizar el razonamiento para tomar decisiones dentro de un proceso de pensamiento estructurado (a menudo definido como una cadena, un árbol, un gráfico o un algoritmo) que guía las acciones del agente.
Orquestación de componentes: coordinación de múltiples partes, incluidos avisos, LLM, fuentes de datos disponibles, contexto, memoria, historial y la ejecución y el estado de acciones potenciales.
Barandillas: mecanismos para mantener al agente concentrado y efectivo, incluyendo salvaguardas para evitar errores o proporcionar información de diagnóstico útil en caso de falla.

Cada uno de estos cuatro requisitos tiene diferentes necesidades de infraestructura. En cuanto a la capacidad y el acceso, las necesidades principales son las integraciones de software y la gestión de credenciales. El razonamiento y la planificación se apoyan principalmente en los LLM y otros modelos de IA. El tema de las barreras de protección es amplio y, a menudo, específico de los casos de uso involucrados, por lo que lo dejaremos para un artículo futuro. Aquí, me gustaría centrarme en la orquestación y la infraestructura necesaria para respaldar la orquestación inteligente en una gran cantidad de partes móviles y un largo historial de datos y contexto que podrían ser necesarios en el momento de tomar una decisión.

Orquestación de componentes y el papel del contexto en los agentes de IA

Suponiendo que los dos primeros requisitos anteriores (capacidad, acceso, razonamiento y planificación) funcionan como se espera, el principal desafío de la orquestación de componentes se reduce a la gestión del conocimiento. El sistema de agencia debe mantener la conciencia en una variedad de niveles: sus tareas y objetivos principales, el estado de varios sistemas relevantes, el historial de interacciones con el usuario y otros sistemas externos, y potencialmente más.

En los LLM, utilizamos el concepto de “ventana de contexto” para describir el conjunto de información disponible para el modelo, generalmente en el momento de la indicación. Esta información es distinta de la información contenida en la indicación misma y también del conjunto de conocimientos internos del LLM que se formó durante el proceso de entrenamiento del modelo.

En textos largos, las ventanas de contexto pueden considerarse como un “historial reciente” de información que está disponible para el LLM en el momento de la solicitud; esto está implícito en la arquitectura de los LLM y la solicitud. De esa manera, la mayoría de los LLM tienen un concepto unidimensional del contexto y el contexto más antiguo simplemente desaparece de la ventana con el tiempo.

Los agentes necesitan un sistema más sofisticado para gestionar el contexto y el conocimiento, a fin de garantizar que el contexto más importante o urgente se convierta en una prioridad cada vez que el agente necesite tomar una decisión. En lugar de un único contexto monolítico, los agentes de IA deben realizar un seguimiento de diferentes tipos de contexto en distintos niveles de importancia.

Esto se puede comparar con la memoria de los sistemas informáticos, donde los distintos tipos de almacenamiento (caché, RAM y discos duros) cumplen distintas funciones en función de la accesibilidad y la frecuencia de uso. Para los agentes de IA, podemos estructurar conceptualmente el contexto en tres niveles principales:

Contexto principal: la lista de tareas o los objetivos principales del agente. Esto siempre debe estar en primer plano y guiar todas las acciones.
Contexto directo: el estado de los sistemas conectados y relevantes y el entorno inmediato, incluidos recursos como sistemas de mensajería, fuentes de datos, API críticas o el correo electrónico y los calendarios de un usuario.
Contexto externo: conocimiento general o cualquier información que pueda ser relevante, pero que no esté explícitamente diseñada para ser parte central del sistema de la agencia. El contexto externo puede proporcionarse mediante algo tan simple como una búsqueda en Internet o Wikipedia. O puede ser urgente y complicado, como factores inesperados que surgen de noticias o actualizaciones de terceros, lo que requiere que el agente adapte sus acciones de manera dinámica.

Estos niveles de contexto no son definitivos, las líneas entre ellos pueden ser muy borrosas y hay otras formas útiles de describir los tipos de contexto, pero esta estructura conceptual es útil para nuestra discusión aquí.

Infraestructura de almacenamiento para la gestión del contexto

Las necesidades de almacenamiento de los agentes de IA varían según el tipo de contexto que se gestione. Cada nivel (contexto primario, directo y externo) requiere diferentes estructuras de datos, mecanismos de recuperación y frecuencias de actualización. El desafío clave es garantizar un acceso eficiente, persistencia a largo plazo y actualizaciones dinámicas sin sobrecargar el flujo de procesamiento del agente.

En lugar de tratar el contexto como una entidad monolítica, los agentes de IA se benefician de arquitecturas de almacenamiento híbridas que combinan modelos de datos estructurados y no estructurados. Esto permite búsquedas rápidas, recuperación semántica y persistencia escalable, lo que garantiza que el contexto relevante esté disponible cuando sea necesario y, al mismo tiempo, minimiza el procesamiento redundante de datos.

Contexto principal: listas de tareas y objetivos del agente

El contexto primario está formado por los objetivos centrales y las tareas activas del agente, la base que impulsa la toma de decisiones. Esta información debe ser persistente, muy estructurada y fácil de consultar, ya que guía todas las acciones del agente.

Necesidades potenciales de almacenamiento:

Bases de datos transaccionales (almacenes de clave-valor o de documentos) para listas de tareas estructuradas y jerarquías de objetivos.
Indexación de baja latencia para admitir búsquedas rápidas de tareas activas.
Actualizaciones basadas en eventos para garantizar que las tareas reflejen el progreso en tiempo real.

Ejemplo de implementación de agente

Un asistente de programación que administra una cola de tareas necesita almacenar:

Tareas persistentes (por ejemplo, “Programar una reunión con Alex”) con actualizaciones de estado.
Historial de ejecución (por ejemplo, “Correo electrónico inicial enviado, esperando respuesta”).
Prioridades y dependencias, garantizando que las tareas urgentes aparezcan primero.

Un almacén de datos distribuido y de alta disponibilidad garantiza que las tareas se rastreen de manera confiable, incluso mientras el agente procesa nuevos eventos y actualizaciones de contexto.

Contexto directo: Estado de los sistemas conectados

El contexto directo incluye el estado actual de los sistemas relevantes (calendarios, plataformas de mensajería, API, bases de datos y otras fuentes de datos en tiempo real). A diferencia del contexto primario, el contexto directo es dinámico y, a menudo, requiere una combinación de soluciones de almacenamiento estructuradas y en tiempo real.

Necesidades potenciales de almacenamiento:

Bases de datos de series de tiempo para registros de eventos y seguimiento de estado en tiempo real.
Capas de almacenamiento en caché para estados del sistema a los que se accede con frecuencia.
Recuperación basada en vectores para consultas contextuales sobre interacciones recientes.

Ejemplo de implementación del agente:

Un agente de inteligencia artificial de atención al cliente que rastrea las interacciones de los usuarios en vivo necesita almacenar:

Historial de conversaciones en tiempo real en un almacén en memoria.
Estado de la sesión (por ejemplo, detalles del ticket de soporte en curso) en una base de datos de series de tiempo.
Cachés de respuesta de API para búsquedas en sistemas externos, evitando consultas redundantes.

Al estructurar el almacenamiento de contexto directo con una combinación de almacenamiento de datos sensibles al tiempo y a largo plazo, los agentes de IA pueden actuar con conocimiento de su entorno sin una latencia excesiva.

Contexto externo: recuperación y adaptación del conocimiento

El contexto externo abarca el conocimiento general y las actualizaciones inesperadas de fuentes fuera del control inmediato del agente. Esto puede abarcar desde consultas de búsqueda a pedido hasta datos externos ingeridos dinámicamente, lo que requiere un enfoque flexible para el almacenamiento y la recuperación. A diferencia de los contextos primarios y directos, que están estrechamente vinculados a las tareas en curso del agente y a los sistemas conectados, el contexto externo a menudo no está estructurado, es vasto y su relevancia es muy variable.

Consideraciones potenciales sobre el almacenamiento:

Almacenes de documentos y bases de conocimiento para material de referencia persistente y estructurado.
Búsqueda vectorial para consultar grandes conjuntos de datos de documentos, internos o externos.
Generación aumentada por recuperación (RAG ) para obtener conocimiento relevante antes de responder.
Ingesta basada en eventos y transmisión para actualizaciones en tiempo real desde fuentes de datos externas.

Ejemplo de implementación del agente:

Un asistente personal que elabora un informe sobre los últimos descubrimientos científicos en la investigación sobre el cambio climático debe:

Recupere artículos científicos de fuentes externas, filtrando por relevancia según palabras clave o similitud vectorial.
Analizar relaciones entre artículos , identificando tendencias utilizando un gráfico de conocimiento.
Resuma conocimientos clave utilizando la generación aumentada de recuperación basada en LLM.
Realice un seguimiento de las actualizaciones recientes suscribiéndose a fuentes de noticias y publicaciones en tiempo real.

Al estructurar el almacenamiento de contexto externo en torno a una recuperación rápida y una organización semántica, los agentes de IA pueden adaptarse continuamente a nueva información y, al mismo tiempo, garantizar que los datos recuperados sigan siendo relevantes, creíbles y procesables.

Almacenamiento híbrido para agentes de IA sensibles al contexto

El diseño de agentes de IA que tengan en cuenta el contexto requiere un equilibrio cuidadoso entre el acceso eficiente a información crítica y evitar la sobrecarga de memoria o procesamiento. Los agentes de IA deben decidir cuándo almacenar, recuperar y procesar el contexto de forma dinámica para optimizar la toma de decisiones.

Una arquitectura de almacenamiento híbrida (que integra modelos transaccionales, vectoriales, de series temporales y basados en eventos) permite a los agentes de IA mantener la persistencia del contexto, la eficiencia de recuperación y la inteligencia adaptativa, todos elementos cruciales para la autonomía a gran escala. Para lograr este equilibrio se requieren estrategias estructuradas en tres dimensiones clave:

Latencia versus persistencia: el contexto al que se accede con frecuencia (por ejemplo, estados de tareas activas) debe residir en un almacenamiento de baja latencia, mientras que el conocimiento esencial pero que se necesita con menos frecuencia (por ejemplo, interacciones históricas) debe recuperarse a pedido desde un almacenamiento a largo plazo.
Datos estructurados versus no estructurados: las tareas, los objetivos y los estados del sistema se benefician del almacenamiento estructurado (por ejemplo, bases de datos de documentos o de clave-valor), mientras que la recuperación de conocimiento más amplia requiere incrustaciones no estructuradas y relaciones gráficas para capturar el contexto de manera eficaz.
Conciencia en tiempo real versus conciencia histórica: algunos contextos requieren un monitoreo continuo (por ejemplo, respuestas de API en vivo), mientras que otros (por ejemplo, decisiones o informes previos) solo deben recuperarse cuando sean relevantes para la tarea actual del agente.

Dados estos diferentes tipos de contextos, los agentes de IA necesitan un enfoque estructurado para almacenar y acceder a la información. Depender únicamente de las ventanas de contexto LLM es ineficiente, ya que limita la capacidad del agente para realizar un seguimiento de las interacciones a largo plazo y las situaciones en evolución. En cambio, el contexto debe almacenarse de forma persistente, recuperarse de forma dinámica y priorizarse en función de la relevancia y la urgencia.

Contexto primario (tareas y objetivos): se almacena en bases de datos transaccionales para un seguimiento estructurado y se hace referencia a él en cada ciclo de inferencia.

Contexto directo (estado del sistema y datos activos): se mantiene en tiempo real mediante almacenamiento en caché, almacenamiento de series de tiempo o actualizaciones impulsadas por eventos.

Contexto externo (conocimiento y actualizaciones dinámicas): se consulta a pedido mediante búsqueda vectorial, generación aumentada por recuperación (RAG) o representación de conocimiento basada en gráficos.

En la práctica, se requieren modelos de memoria de varios niveles que combinen cachés de corto plazo, bases de datos persistentes y mecanismos de recuperación externos para arquitecturas de agentes de IA escalables. Al aprovechar un enfoque de almacenamiento híbrido, los agentes de IA pueden:

Mantener conocimiento en tiempo real de los sistemas activos.
Recupere el conocimiento histórico sólo cuando sea relevante.
Ajustar dinámicamente las prioridades en función de las necesidades cambiantes.

Al integrar estas estrategias de almacenamiento, los agentes de IA pueden funcionar de forma autónoma, conservar el conocimiento contextual durante largos períodos y responder de forma dinámica a nueva información, sentando las bases para sistemas de agentes verdaderamente inteligentes y escalables.

Soluciones de almacenamiento híbridas

La implementación de una arquitectura de almacenamiento híbrida para agentes de IA requiere la selección de las bases de datos y las herramientas de almacenamiento adecuadas para gestionar diferentes tipos de contextos de manera eficiente. La mejor opción depende de factores como los requisitos de latencia, la escalabilidad, la compatibilidad de la estructura de datos y los mecanismos de recuperación.

Un sistema de almacenamiento de agentes de IA bien diseñado normalmente incluye:

Bases de datos transaccionales para el seguimiento estructurado y persistente de tareas.
Almacenamiento basado en series de tiempo y eventos para monitoreo del estado del sistema en tiempo real.
Búsqueda de vectores y recuperación de conocimiento para un acceso flexible y no estructurado a datos.
Almacenamiento en caché y bases de datos en memoria para un acceso rápido a la memoria de corto plazo.

Veamos más de cerca cada uno de estos elementos.

Bases de datos transaccionales y distribuidas

Los agentes de IA requieren bases de datos transaccionales escalables y de alta disponibilidad para almacenar tareas, objetivos y metadatos estructurados de manera confiable. Estas bases de datos garantizan que el contexto primario esté siempre disponible y sea posible realizar consultas de manera eficiente.

Apache Cassandra® : una base de datos NoSQL distribuida diseñada para lograr alta disponibilidad y tolerancia a fallas. Ideal para administrar listas de tareas estructuradas y seguimiento de objetivos de agentes a gran escala.

DataStax Astra DB : una base de datos como servicio (DBaaS) administrada basada en Cassandra que proporciona escalabilidad elástica y replicación multirregional para aplicaciones de IA que requieren alta durabilidad.

PostgreSQL: una base de datos relacional popular con fuertes garantías de consistencia, ideal para metadatos de agentes estructurados, registros de tareas persistentes y aplicación de políticas.

Almacenamiento basado en eventos y series temporales

Para el monitoreo del sistema en tiempo real, los agentes de IA necesitan bases de datos optimizadas para el registro, el seguimiento de eventos y la persistencia del estado.

InfluxDB: una base de datos de series de tiempo líder diseñada para una ingesta de alta velocidad y consultas eficientes, lo que la hace ideal para registrar la actividad del agente de IA y las actualizaciones del sistema externo.

TimescaleDB: una extensión de PostgreSQL optimizada para cargas de trabajo de series temporales, adecuada para rastrear cambios en los flujos de trabajo de agentes de IA y eventos del sistema.

Apache Kafka + kSQLDB: una plataforma de transmisión de datos que permite a los agentes de IA consumir, procesar y reaccionar ante eventos en tiempo real de manera eficiente.

Redis Streams: una solución liviana para el manejo de eventos en tiempo real y la puesta en cola de mensajes, útil para mantener a los agentes de IA al tanto de las nuevas actualizaciones a medida que ocurren.

Búsqueda de vectores para la recuperación de conocimientos

Los agentes de IA que trabajan con conocimiento no estructurado requieren formas eficientes de almacenar, buscar y recuperar incrustaciones para tareas como búsqueda semántica, comparación de similitudes y generación aumentada por recuperación (RAG). Un sistema de búsqueda vectorial bien optimizado permite a los agentes recordar interacciones, documentos o hechos pasados relevantes sin sobrecargar la memoria o las ventanas de contexto.

DataStax Astra DB: una base de datos vectorial administrada y escalable basada en Cassandra que ofrece búsquedas de similitud de alto rendimiento y recuperación multimodal. Astra combina resiliencia distribuida con capacidades de búsqueda vectorial, lo que la convierte en la mejor opción para los agentes de IA que necesitan procesar integraciones de manera eficiente y, al mismo tiempo, garantizar la escalabilidad global y la alta disponibilidad.

Weaviate: una base de datos vectorial nativa de la nube diseñada para la búsqueda semántica y la recuperación de datos multimodales. Admite métodos de búsqueda híbridos y se integra bien con gráficos de conocimiento, lo que la hace útil para agentes de IA que dependen del razonamiento contextual.

FAISS (Facebook AI Similarity Search): una biblioteca de código abierto para búsquedas de alto rendimiento de vecinos más cercanos, a menudo integrada en secuencias de IA para búsquedas rápidas de vectores en grandes conjuntos de datos. Si bien no es una base de datos completa, FAISS proporciona una solución liviana y de alta velocidad para la búsqueda de similitudes locales.

Almacenamiento en caché y en memoria

Los agentes de IA requieren acceso de baja latencia al contexto al que se hace referencia con frecuencia, lo que hace que el almacenamiento en caché sea un componente esencial de las arquitecturas de almacenamiento híbridas.

Redis: un almacén de valores clave en memoria de alto rendimiento, ampliamente utilizado para el almacenamiento en caché de contexto a corto plazo y la gestión de sesiones en agentes de IA.

Memcached: un sistema de almacenamiento en caché distribuido simple pero efectivo que proporciona acceso rápido a datos de agentes de IA utilizados con frecuencia.

Al integrar estas diversas soluciones de almacenamiento, los agentes de IA pueden gestionar de manera eficiente la memoria a corto plazo, el conocimiento persistente y las actualizaciones en tiempo real, lo que garantiza una toma de decisiones fluida a gran escala. La combinación de bases de datos transaccionales, almacenamiento de series temporales, búsqueda vectorial y almacenamiento en caché permite a los agentes equilibrar la velocidad, la escalabilidad y el conocimiento contextual, adaptándose de manera dinámica a nuevas entradas.

A medida que las aplicaciones impulsadas por IA continúan evolucionando, seleccionar la arquitectura de almacenamiento híbrida adecuada será crucial para permitir sistemas agentes autónomos, receptivos e inteligentes que puedan operar de manera confiable en entornos complejos y en constante cambio.

El futuro de los agentes de IA con bases de datos híbridas

A medida que los sistemas de IA se vuelven más complejos, las bases de datos híbridas serán cruciales para gestionar la memoria a corto y largo plazo, los datos estructurados y no estructurados, y la información histórica y en tiempo real. Los avances en la generación aumentada por recuperación (RAG), la indexación semántica y la inferencia distribuida están haciendo que los agentes de IA sean más eficientes, inteligentes y adaptables. Los futuros agentes de IA dependerán de un almacenamiento rápido, escalable y sensible al contexto para mantener la continuidad y tomar decisiones informadas a lo largo del tiempo.

¿Por qué bases de datos híbridas?

Los agentes de IA necesitan soluciones de almacenamiento que gestionen de manera eficiente distintos tipos de contexto y, al mismo tiempo, garanticen velocidad, escalabilidad y resiliencia. Las bases de datos híbridas ofrecen lo mejor de ambos mundos (datos estructurados de alta velocidad con recuperación contextual profunda), lo que las convierte en la base de los sistemas de IA inteligentes. Admiten búsquedas basadas en vectores para el almacenamiento de conocimiento a largo plazo, búsquedas transaccionales de baja latencia, actualizaciones impulsadas por eventos en tiempo real y escalabilidad distribuida para la tolerancia a fallas.

Creación de una infraestructura de datos de IA escalable

Para respaldar a los agentes de IA inteligentes, los desarrolladores deben diseñar arquitecturas de almacenamiento que combinen múltiples modelos de datos para una gestión de contexto perfecta:

Búsqueda vectorial y datos en columnas: almacene el contexto semántico junto con metadatos estructurados para una recuperación rápida
Flujos de trabajo basados en eventos : transmita actualizaciones en tiempo real para mantener a los agentes de IA al tanto de los cambios en los datos
Escala global y resiliencia: implementación en redes distribuidas para lograr alta disponibilidad y tolerancia a fallas

Al integrar el procesamiento transaccional, la búsqueda de vectores y las actualizaciones en tiempo real, bases de datos híbridas como DataStax Astra DB Proporcionan la base óptima para la memoria del agente de IA, el conocimiento del contexto y la toma de decisiones. A medida que evolucionen las aplicaciones impulsadas por IA, las soluciones de almacenamiento híbrido serán esenciales para habilitar agentes de IA autónomos y ricos en contexto que operen de manera confiable en entornos dinámicos con uso intensivo de datos.

Escrito por Brian Godsey, DataStax