Como suele ser el caso con las tecnologías de rápido avance, la IA ha inspirado FOMO , FUD y disputas masivas. Parte de esto es merecido, parte no , pero la industria está prestando atención. Desde nuevas empresas de hardware sigiloso hasta gigantes fintech e instituciones públicas, los equipos están trabajando febrilmente en su estrategia de IA. Todo se reduce a una pregunta crucial y de alto riesgo: "¿Cómo usamos la IA y el aprendizaje automático para mejorar en lo que hacemos?"
La mayoría de las veces, las empresas no están preparadas para la IA. Tal vez contrataron a su primer científico de datos con resultados menos que estelares, o tal vez la alfabetización de datos no es fundamental para su cultura. Pero el escenario más común es que aún no han construido la infraestructura para implementar (y cosechar los beneficios de) los algoritmos y operaciones de ciencia de datos más básicos, y mucho menos el aprendizaje automático .
Como asesor de ciencia de datos/IA, tuve que transmitir este mensaje innumerables veces, especialmente en los últimos dos años. Otros están de acuerdo . Es difícil ser una manta mojada entre toda esta emoción en tu propio campo, especialmente si compartes esa emoción. ¿Y cómo les dice a las empresas que no están listas para la IA sin sonar (o ser) elitista, un guardián autoproclamado?
Aquí hay una explicación que resonó más:
Piense en la IA como la parte superior de una pirámide de necesidades . Sí, la autorrealización (IA) es excelente, pero primero necesita alimentos, agua y refugio (alfabetización de datos, recopilación e infraestructura).
En la base de la pirámide tenemos la recopilación de datos . ¿Qué datos necesita y qué hay disponible? Si es un producto orientado al usuario, ¿está registrando todas las interacciones relevantes del usuario? Si es un sensor, ¿qué datos están llegando y cómo? ¿Qué tan fácil es registrar una interacción que aún no está instrumentada? Después de todo, el conjunto de datos correcto es lo que hizo posibles los avances recientes en el aprendizaje automático.
A continuación, ¿cómo fluyen los datos a través del sistema? ¿Tiene flujos confiables / ETL? ¿Dónde lo almacena y qué tan fácil es acceder a él y analizarlo? Jay Kreps ha estado diciendo (durante aproximadamente una década) que el flujo de datos confiable es clave para hacer cualquier cosa con los datos. [Aparte: estaba buscando una cita exacta y la encontré en su obra maestra ' I love logs '. Luego me di cuenta de que, un párrafo más adelante, está haciendo esta comparación exacta de la jerarquía de necesidades de Maslow, con un 'vale la pena señalar lo obvio' incluido allí por si acaso (¡gracias Jay!). Hablando de trabajos relacionados, más tarde también encontré (h/t Daniel Tunkelang) la excelente publicación de Hilary Mason y Chris Wiggins sobre lo que hace un científico de datos. Hace unos días, Sean Taylor reveló su propia pirámide de necesidades de ciencia de datos (irónicamente denominada el Triángulo no unido de ciencia de datos) que, por supuesto, es completamente diferente. Tal vez deberíamos empezar un tumblr.]
Solo cuando los datos son accesibles, puede explorarlos y transformarlos . Esto incluye la infame 'limpieza de datos', un lado subestimado de la ciencia de datos que será el tema de otra publicación. Aquí es cuando descubre que le faltan muchos datos, sus sensores no son confiables, un cambio de versión significó que sus eventos se eliminaron, está malinterpretando una bandera y vuelve a asegurarse de que la base de la pirámide sea sólida.
Cuando pueda explorar y limpiar los datos de manera confiable, puede comenzar a crear lo que tradicionalmente se considera BI o análisis : defina métricas para rastrear, su estacionalidad y sensibilidad a varios factores. Tal vez hacer una segmentación aproximada de usuarios y ver si algo salta a la vista. Sin embargo, dado que su objetivo es la IA, ahora está creando lo que luego considerará como funciones para incorporar en su modelo de aprendizaje automático. En esta etapa, también sabe lo que le gustaría predecir o aprender, y puede comenzar a preparar sus datos de capacitación generando etiquetas, ya sea automáticamente (¿qué clientes abandonaron?) o con humanos en el circuito.
Aquí también es cuando encuentra sus historias de datos más emocionantes y convincentes, pero ese también es el tema de otra publicación de Medium.
Tenemos datos de entrenamiento, seguramente, ¿ahora podemos hacer aprendizaje automático? Tal vez, si está tratando de predecir internamente la rotación; no, si el resultado va a ser de cara al cliente. Necesitamos tener un (aunque primitivo) marco de prueba o experimentación A/B, de modo que podamos implementarlo de manera incremental para evitar desastres y obtener una estimación aproximada de los efectos de los cambios antes de que afecten a todos. Este también es el momento adecuado para establecer una línea de base muy simple (para los sistemas de recomendación, esto sería, por ejemplo, "más popular", luego "más popular para su segmento de usuario": el muy molesto pero efectivo "estereotipo antes de la personalización").
Las heurísticas simples son sorprendentemente difíciles de superar y le permitirán depurar el sistema de un extremo a otro sin misteriosas cajas negras de aprendizaje automático con hiperparámetros hipersintonizados en el medio. Esta es también la razón por la cual mi algoritmo de ciencia de datos favorito es la división.
En este punto, puede implementar un algoritmo ML muy simple (como regresión logística o, sí, división), luego pensar en nuevas señales y características que podrían afectar sus resultados. Los datos meteorológicos y del censo son mis favoritos. Y no, a pesar de lo poderoso que es, el aprendizaje profundo no hace esto automáticamente por usted. Traer nuevas señales (creación de funciones, no ingeniería de funciones) es lo que puede mejorar su rendimiento a pasos agigantados. Vale la pena pasar un tiempo aquí, incluso si, como científicos de datos, estamos emocionados de pasar al siguiente nivel en la pirámide.
Lo hiciste. Estás instrumentado. Tu ETL está tarareando. Tus datos están organizados y limpios. Tiene tableros, etiquetas y buenas características. Estás midiendo las cosas correctas. Puedes experimentar a diario. Tiene un algoritmo de referencia que se depuró de un extremo a otro y se ejecuta en producción, y lo ha cambiado una docena de veces. Estas listo. Continúe y pruebe lo último y lo mejor que hay, desde hacer el suyo propio hasta usar empresas que se especializan en aprendizaje automático. Puede obtener grandes mejoras en la producción, o puede que no. En el peor de los casos, aprende nuevos métodos, desarrolla opiniones y experiencia práctica con ellos, y puede contarles a sus inversores y clientes sobre sus esfuerzos de IA sin sentirse como un impostor. En el mejor de los casos, marca una gran diferencia para sus usuarios, clientes y su empresa: una verdadera historia de éxito de aprendizaje automático.
La jerarquía de necesidades de la ciencia de datos no es una excusa para construir una infraestructura desconectada y con un exceso de ingeniería durante un año. Al igual que cuando crea un MVP (producto mínimamente viable) tradicional, comienza con una pequeña sección vertical de su producto y hace que funcione bien de principio a fin. Puedes construir su pirámide y luego hacerla crecer horizontalmente. Por ejemplo, en Jawbone, comenzamos con datos de sueño y construimos su pirámide: instrumentación, ETL, limpieza y organización, captura y definiciones de etiquetas, métricas (¿cuál es el número promedio de horas que las personas duermen cada noche? ¿Qué pasa con las siestas? ¿Qué es una siesta? ), análisis de segmentos cruzados hasta historias de datos y productos de datos basados en aprendizaje automático (detección automática de sueño). Luego extendimos esto a los pasos, luego a la comida, el clima, los entrenamientos, las redes sociales y la comunicación, uno a la vez. No construimos una infraestructura integral sin ponerla a trabajar de principio a fin.
Se trata solo de cómo podrías , no de si deberías (por razones pragmáticas o éticas).
Espera, ¿qué pasa con esa API de Amazon o TensorFlow o esa otra biblioteca de código abierto? ¿Qué pasa con las empresas que venden herramientas de ML o que extraen automáticamente información y características? '
Todo eso es genial y muy útil. (Algunas empresas terminan minuciosamente construyendo a medida toda su pirámide para que puedan mostrar su trabajo. Son héroes). Sin embargo, bajo la fuerte influencia de la exageración actual de la IA, las personas intentan conectar datos sucios y llenos de lagunas. que abarca años mientras cambia en formato y significado, que aún no se entiende, que está estructurado de maneras que no tienen sentido, y espera que esas herramientas lo manejen mágicamente. Y tal vez algún día pronto ese será el caso; Veo y aplaudo los esfuerzos en esa dirección. Hasta entonces, vale la pena construir una base sólida para su pirámide de necesidades de IA.