En el mundo del análisis de datos y la inteligencia empresarial, los equipos de datos, también llamados " equipos morados ", que crean las soluciones que necesitan los usuarios empresariales (rojo) y trabajan con equipos de ingeniería (azul), esencialmente construyen la infraestructura para los datos. .
Los equipos de BI trabajan predominantemente en la creación de flujos o canalizaciones que entregan informes y paneles esenciales para el consumo de los usuarios empresariales.
Hay muchas herramientas de nueva generación que ayudan a los equipos de datos a crear estas soluciones para el usuario final, como Mode , Superset y Lightdash , o líderes de la industria que estuvieron en el espacio del "análisis de datos" durante un tiempo, como Tableau o PowerBI.
Los analistas que crean estas soluciones deben preparar sus datos de diversas fuentes, asegurándose de que estén desinfectados para realizar consultas. Un conjunto de herramientas o transformaciones destinadas a realizar un paso de limpieza en el flujo de trabajo llamado "Preparación de datos".
Con la llegada de los grandes modelos de lenguaje, hablar de IA ha sido una tendencia común en todo el sector de la ingeniería de software. Pero, ¿qué pasa si digo: utilizando prácticas de IA centradas en datos , podríamos automatizar la limpieza del paso de datos? ¡Permitiéndole exportar una versión más limpia del conjunto de datos con el mínimo esfuerzo!
En este blog, analizaremos cómo, al utilizar la IA centrada en datos, puede preparar fácilmente sus datos para las herramientas de BI a fin de garantizar conclusiones confiables de su análisis de datos posterior.
Hace varios años, los analistas de datos tenían que recopilar, limpiar y analizar datos manualmente, lo que era un proceso que requería mucho tiempo y limitaba su capacidad para obtener información valiosa.
Hoy en día, el panorama del análisis de datos ha experimentado una transformación significativa con la introducción de herramientas de preparación de datos como Alteryx , Tableau , etc.
Estas eficientes herramientas han simplificado el flujo de trabajo, permitiendo a los analistas integrar sin problemas datos de múltiples fuentes, automatizar tareas de limpieza de datos y generar representaciones de datos visualmente atractivas y reveladoras.
Los datos preparados con las herramientas se analizan mediante herramientas de BI para identificar consultas comerciales específicas.
Por ejemplo, considere este conjunto de datos de solicitudes de clientes dentro de un banco donde los clientes registran los problemas que encuentran en un portal de servicio al cliente, que luego un administrador de tareas humano o automatizado etiqueta.
Imagínese si un analista de negocios tuviera que determinar la cantidad de solicitudes de clientes que aparecen para una categoría de problema en particular. A continuación se muestra el resultado que vería: la categoría beneficiary_not_allowed
muestra 111
problemas de clientes.
De manera similar, si un analista quiere saber cuántos casos de problemas están relacionados con la palabra ATM
, un análisis rápido arrojaría la siguiente representación visual. Observe la cantidad de problemas para la categoría change_pin
.
Parece simple y directo, pero si profundiza en el conjunto de datos , puede encontrar que la categorización de las solicitudes de los clientes es incorrecta en algunos casos.
Por ejemplo:
Texto | Etiqueta (según el conjunto de datos) | Etiqueta (idealmente) |
---|---|---|
Mi tarjeta está casi caducada. ¿Qué tan rápido recibiré uno nuevo y cuál es el costo? | apple_pay_o_google_pay | tarjeta_sobre_para_expirar |
Los datos del mundo real, en su mayor parte, son confusos y desestructurados, lo que dificulta deducir valores a través de estadísticas. Como queremos que los humanos y las máquinas tomen decisiones basadas en datos, sería fundamental que los datos estuvieran bien etiquetados, libres de datos erróneos y sin duplicaciones.
Es fundamental garantizar que los datos utilizados en los análisis sean precisos, estén actualizados y no contengan duplicados. No hacerlo puede dar lugar a decisiones y conclusiones incorrectas. Por ejemplo, un campo de ubicación vacío en los datos del perfil de usuario o un formato inconsistente del campo de ubicación pueden provocar errores. Por lo tanto, mantener la calidad de los datos es fundamental para un análisis de datos eficaz.
La IA centrada en datos es la disciplina de diseñar sistemáticamente los datos utilizados para construir un sistema de IA. La mayoría de los datos del mundo real no están estructurados o están mal etiquetados. Un conjunto de datos de calidad con el conjunto correcto de datos de entrenamiento etiquetados conduce a un modelo eficiente que podría predecir mejores resultados.
Mejores resultados generan una mejor experiencia del cliente. Para obtener más información, puede consultar el curso de IA centrada en datos del MIT.
Cleanlab es un proyecto de código abierto que le ayuda a limpiar datos y etiquetas detectando automáticamente problemas en el conjunto de datos. Cleanlab utiliza el aprendizaje seguro , basado en un artículo que habla sobre la estimación de la incertidumbre en las etiquetas de conjuntos de datos escrito por Curtis Northcutt (también cofundador de Cleanlab.ai ) y otros.
Cleanlab básicamente mejora el flujo de trabajo de análisis de datos al inducir la IA.
Cleanlab Studio es una herramienta sin código construida sobre el paquete de código abierto Cleanlab y ayuda a preparar los datos para un flujo de trabajo de análisis. También puede importar datos desde sus almacenes de datos como Databricks , Snowflake o Cloud Object Stores como AWS S3 .
Regístrese para acceder a Cleanlab Studio .
Iniciará sesión en un panel con algunos conjuntos de datos y proyectos de muestra.
Haga clic en "Cargar conjunto de datos" para iniciar el asistente de carga. Puede cargar el conjunto de datos desde su computadora, URL, API o un almacén de datos como Databricks y Snowflake.
Cleanlab Studio infiere automáticamente su esquema y modalidad de datos, es decir, texto, imagen, voz o tabular.
Una vez que confirme los detalles, se le mostrará una pantalla con el conjunto de datos cargado y los errores asociados (¡si los hay!) encontrados al cargar los datos.
Nota: Es posible que algunos conjuntos de datos tarden unos minutos en cargarse. Cleanlab le informará una vez que el conjunto de datos esté completamente cargado en Cleanlab Studio por correo electrónico.
Según el tipo de conjunto de datos, puede utilizar una tarea específica de aprendizaje automático para identificar problemas con los datos. Actualmente, Cleanlab Studio admite varias tareas de clasificación de ML relacionadas con datos de texto, tabulares e imágenes.
Específicamente para la clasificación, puede ser una de las clases K o una de las N de K clases. En este conjunto de datos, cada solicitud de un cliente se incluye en una categoría específica. Sería una clasificación “Multiclase”.
Cleanlab studio detectará automáticamente la columna de texto y etiqueta. Puedes corregirlo si es necesario.
Es posible que el uso de modelos rápidos no produzca los mejores resultados; En aras del tiempo, elegir Rápido es una opción.
Pulsa “¡ Limpiar mis datos! "
¡Cleanlab Studio ejecuta un conjunto de modelos en el conjunto de datos y presenta una descripción general del problema!
Como se señaló anteriormente, el conjunto de datos tenía datos categorizados erróneamente y valores atípicos, que podrían no agregar valor al proceso general de toma de decisiones cuando se analicen.
También puede echar un vistazo a los metanálisis de los problemas identificados por Cleanlab Studio en el conjunto de datos cambiando a la vista de análisis en la parte superior.
La parte interesante de Cleanlab Studio no es solo exportar un conjunto de datos limpio, sino también ofrecer una vista de sus datos orientada a problemas. El banco de trabajo de preparación de datos que falta y que un analista de datos y un usuario de inteligencia empresarial ha deseado durante años.
Puede ordenar cada problema mediante acciones asistidas por teclado proporcionadas en Cleanlab Studio O exportar un "Exportar Cleanset" haciendo clic en el botón a continuación.
Examinemos el mismo análisis de datos con el conjunto de datos limpio.
Parece que hay discrepancias en los números entre las categorías cancel_transfer
y visa_or_mastercard
. Si bien se trata de un conjunto de datos más pequeño, es importante tener en cuenta que estas correcciones de datos podrían generar estimaciones significativamente diferentes y posibles decisiones comerciales a mayor escala.
De manera similar, puede encontrar que las solicitudes de los clientes para algunas categorías desaparecen a medida que los problemas se marcan adecuadamente.
Si es analista de datos o forma parte de la comunidad de inteligencia empresarial, Cleanlab Studio puede revolucionar su flujo de trabajo de preparación de datos. Pruebe Cleanlab Studio hoy y experimente el poder de la limpieza de datos asistida por IA para un análisis de datos más confiable y preciso.
Cleanlab Studio es un banco de trabajo de preparación de datos sin código utilizado por miles de ingenieros, analistas y científicos de datos en empresas Fortune 500. Esta plataforma innovadora fue pionera en el MIT para entrenar modelos de aprendizaje automático más confiables y precisos utilizando datos erróneos del mundo real. Puedes unirte a nuestra comunidad Slack para obtener más información.