Al ver la sorprendente respuesta a los primeros 3 artículos de esta serie, tuve que publicar una cuarta parte.
En los tres artículos anteriores, analizamos las definiciones de métricas de rendimiento, la instrumentación y la escalabilidad de los agentes de IA de conversación. En caso de que no hayas consultado los artículos anteriores, aquí te dejamos los enlaces:
En este artículo, discutiremos cómo hacer que estas métricas sean más procesables (utilizando los últimos avances de LLM) para mejorar el rendimiento de forma continua. El objetivo será mantener el debate simplificado y de un nivel bastante alto para todos los que trabajan en este ámbito.
Las métricas percibidas por el usuario y las métricas informadas por el usuario son dos clases de métricas de alto nivel que hemos analizado. Tradicionalmente, la primera se considera una métrica a nivel de sistema: estas métricas se miden directamente a partir de registros. Como resultado, las métricas percibidas por el usuario son procesables por naturaleza y, por lo tanto, operativas.
Las métricas operativas se rastrean periódicamente a partir de los registros de producción y se pueden utilizar para establecer objetivos en relación con los OKR de todo el equipo.
Sin embargo, aunque las métricas percibidas por el usuario son fáciles de poner en práctica, cabe señalar que se trata de métricas de usuario “percibidas” y no “reales”. Como resultado, es posible que mejorar estas métricas no conduzca a una mejora significativa en la percepción del usuario sobre su agente de IA conversacional. Esto podría conducir a una gestión ineficiente de los recursos si estos proyectos abarcan varios trimestres.
Es necesario que haya una manera de medir el impacto esperado de todas las mejoras de rendimiento directamente con las métricas informadas por el usuario. Esto debería tratarse como el impacto de la “estrella polar”. ¿Entonces, cuál es el problema?
Se espera que los comentarios directos de los usuarios no estén estructurados, no sean procesables y sean diferentes de operacionalizar.
Los comentarios detallados proporcionados por los usuarios no deben estar estructurados por naturaleza. Si los comentarios informados por los usuarios se estructuran, pueden terminar centrándose en áreas que el equipo interno ya conoce. Además de estos, las métricas informadas por los usuarios también se ven afectadas por factores como la estacionalidad y la percepción de la empresa.
El impacto en las métricas percibidas por el usuario se puede estimar con mayor precisión, pero las métricas informadas por el usuario tienen muchos factores incontrolables.
Los comentarios no estructurados informados por los usuarios deben convertirse a un formato estructurado que pueda convertirse en procesable. Puede haber modelos de ML específicos entrenados con el fin de convertir comentarios no estructurados en métricas existentes a nivel de sistema.
Cabe señalar que podría ser más práctico utilizar el objetivo principal de las métricas informadas por el usuario para regresiones de métricas de usuarios "recientes" para protegerse contra el sesgo inherente en estas métricas. Para proyectos más horizontales a largo plazo , estas métricas deben usarse para medir el impacto en la percepción del usuario junto con métricas a nivel del sistema.
Ahora la pregunta sigue siendo: ¿cuál es el esfuerzo necesario para entrenar modelos de ML para las métricas específicas que buscamos? Con el reciente aumento en popularidad y disponibilidad de los LLM, podría ser posible utilizar API listas para usar para convertir comentarios no estructurados en algo que pueda rastrearse y medirse de manera similar a las métricas a nivel de sistema.
Es importante tener en cuenta que con el aumento en la cantidad de tokens que los LLM pueden procesar, se puede proporcionar mucha información específica del producto como parte del "mensaje" en sí. Como resultado, las API LLM listas para usar junto con alguna ingeniería rápida pueden proporcionar métricas informadas por el usuario procesables.
Esto proporciona una manera realmente rápida de evaluar el impacto de los proyectos de mejora de métricas a nivel del sistema en la percepción del usuario, lo que puede resultar útil para priorizar proyectos de mejora del rendimiento.
Incluso con este enfoque de métricas estructuradas informadas por el usuario, todavía hay margen para cambios inesperados. Sin embargo, se puede asumir con cierto nivel de confianza que si un proyecto específico (destinado a mejorar una métrica a nivel de sistema) termina impactando positivamente las métricas reportadas, entonces lo más probable es que el proyecto en realidad esté mejorando la percepción del usuario.
Sin embargo, no hay garantía de que todos los cambios realmente "buenos" siempre mejoren de manera efectiva las métricas informadas por los usuarios. Como resultado, es importante utilizar una combinación de ambos para priorizar y evaluar proyectos de mejora del desempeño.