paint-brush
Si los datos de entrenamiento apesta, la IA también apestapor@mytiki
756 lecturas
756 lecturas

Si los datos de entrenamiento apesta, la IA también apesta

por mytiki.com5m2023/05/31
Read on Terminal Reader

Demasiado Largo; Para Leer

Una gran cantidad de datos de entrenamiento apesta. No he desenterrado la correlación entre la succión de datos de entrenamiento y las ventas de maquinillas de afeitar Gillette, pero me imagino que hay algo ahí. Además de chupar, es caro.
featured image - Si los datos de entrenamiento apesta, la IA también apesta
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

Un hombre se compromete con el insomnio y se levanta de la cama a las 4:30 AM. El sol está a horas de hacer su debut diario, pero no importa para este hombre. No hay necesidad de afeitarse. No lo ha hecho en cuatro días. Inmediatamente enciende un cigarrillo, un cigarrillo liado a mano de origen desconocido (para usted). Enciende la radio. Inmediatamente lo apaga. Este momento merece silencio. Se mira en el espejo. Desnudo. Buck desnudo. Se mira a sí mismo. Profundo en sí mismo. Apaga el cigarrillo en el dorso de su mano y lo arroja al inodoro. Finalmente, las palabras que retumban en su cerebro se deslizan más allá de sus labios en un murmullo exasperado: "Nuestros datos de entrenamiento apesta".


¡Y también es caro!


Mira, todos y su abuela saben que la IA es enorme. Tal vez tu abuela probablemente hable más con Snapchat AI que contigo. De cualquier manera, si bien la IA sin duda proporciona un factor de entretenimiento, más que nada puede ser francamente útil . Y las empresas están adoptando iniciativas de IA a un ritmo sin precedentes. Sé que el mundo no necesita otro blog sobre el crecimiento de la IA, pero lo mezclaré en un segundo.


Primero, entienda esto: en 1923, solo el 0% de las empresas consideraban que la inteligencia artificial era de alta prioridad para su organización. Guau. Para 2020, el 54 % de los profesionales de TI encuestados daban mucha prioridad a la IA. A fines de 2022, ese número había aumentado al 69 % (muy bien), un aumento del 15 % en solo dos años.


Sin embargo, cerca de la mitad (47 %) de los usuarios de IA/ML han comenzado sus iniciativas en los últimos dos años y el 78 % de los encuestados había pasado de la etapa de ideación a la de ejecución. ¿Qué quiere decir esto? Estadísticamente hablando, hay muchas empresas que ejecutan programas e iniciativas de IA que son totalmente novatas en el campo y probablemente no tengan idea de lo que están haciendo. ¿Qué porcentaje del 47% es ese viejo meme químico de perros? Bueno, no puedo responder eso por ti. Lo que puedo decirles es que el mayor desafío informado en los viajes de IA/ML de las empresas es la escasez de talento calificado (67 %), seguido de fallas en los modelos y algoritmos (61 %). Cuando se trata de adoptar IA, la barrera más reportada es el costo de implementación. ¿Y qué ocupa la mayor parte de los presupuestos de IA? Obtener e implementar datos de capacitación, verificando el 13% de los presupuestos.


Muchos datos son simplemente malos . No es confiable, es difícil de administrar y es muy posible que la IA se entrene con datos lavados , lo que significa que los datos utilizados para entrenar el modelo provienen de otro modelo de IA que ya se entrenó con datos incompletos. Gracias a Olga Mack por la introducción a esta terminología.


Por lo tanto, los datos son malos, son costosos, podrían ser el equivalente a una camiseta con errores tipográficos comprada en una tienda de segunda mano (un saludo a la camiseta de los Medias Rojas de Nomar "Garciapara" de mi amigo), y una gran cantidad de empresas que implementan IA son nuevas y carecen de los recursos y el talento para hacer que las cosas funcionen, y mucho menos mantenerlas sostenibles.


Con este fin, un sorprendente 87 % de los ejecutivos está dispuesto a pagar más por datos de capacitación de mayor calidad , mientras que el 66 % predice que su necesidad de datos de capacitación solo aumentará en comparación con el 0 % que predice que disminuirá. Este es un aumento del 0% de mi encuesta de fantasía de 1923.


¿Más números dices? Más números que recibirás. En 2022, el gasto global en inteligencia artificial fue de alrededor de $118 mil millones . Para 2026, se espera que la cifra alcance los 300.000 millones de dólares. El 13% de $ 300 mil millones es ... $ 39 mil millones. Ahora sé que no es exactamente así como funcionan las estadísticas, así que no me interrogues. Pero en resumen: el gasto global en datos de entrenamiento para IA es una industria multimillonaria. Tenga en cuenta que el 66 % de estos ejecutivos espera que aumente la necesidad de datos de capacitación y el 87 % está dispuesto a gastar más para obtener datos de mayor calidad, entonces... bueno, entiende el punto.

Más factores

Además de esto, la capacidad de obtener datos confiables es mucho más difícil en 2023 que en el pasado. Las iniciativas de privacidad como GDPR y CCPA tienen como objetivo proteger los datos del consumidor. Los principales actores tecnológicos como Google y Apple están dificultando cada vez más la recopilación de datos de terceros. Las batallas legales en curso tienen los datos de entrenamiento de IA a la vanguardia, con un sentimiento popular de que extraer datos web para entrenar IA y afirmar que es un "uso justo" está en peligro de convertirse en una cosa del pasado. Una comparación adecuada puede ser la caída de Napster a principios de la década de 2000. Si bien entonces era claramente evidente que Napster estaba impulsado por el intercambio ilegal de material protegido por derechos de autor y propiedad intelectual, una trayectoria similar es algo que las empresas que usan IA se ven obligadas a considerar. La arena puede filtrarse a través del reloj de arena, y es probable que "To Whom the Bell Tolls" de Metallica suene para aquellos que no se han esforzado por preparar sus iniciativas de IA para el futuro.

Un nuevo Spotify

¿Entonces, cuál es la solución? Bueno, es complicado. Pero de las cenizas de Napster, Kazaa y Limewire surgió Spotify, que operaba bajo la premisa de construir algo “mejor que la piratería”. Esto implicó negociar acuerdos con sellos discográficos y agencias para licenciar adecuadamente el contenido transmitido en las plataformas de Spotify. ¿Es lo mismo posible para la IA? Creemos que sí. El 85% de los consumidores intercambiarán datos por cupones o descuentos. Esto allana el camino para un modelo de adquisición de datos que incentiva a los usuarios a participar, generando valiosos datos de parte cero que se pueden usar para una multitud de cosas, incluido el entrenamiento de IA. Creamos algo para otorgar licencias de datos de terceros e incluso creamos una función en asociación con Snowflake para permitir que las empresas vuelvan a enumerar los datos de terceros con licencia. Basado en el deseo de obtener datos de capacitación de mayor calidad, esto podría convertirse en una oportunidad gigantesca para un flujo de ingresos adicional que también puede generar la lealtad del cliente. Pero basta de cosas de marca. Puedes aprender más aquí .

En resumen…

Una gran cantidad de datos de entrenamiento apesta. No he desenterrado la correlación entre la succión de datos de entrenamiento y las ventas de maquinillas de afeitar Gillette, pero me imagino que hay algo ahí. Además de que apesta, es caro. Cada vez más empresas dedican tiempo y recursos a implementar IA, pero muchas de ellas son nuevas en el juego y carecen del equipo, la infraestructura y los datos de calidad adecuados para optimizar sus iniciativas. Las batallas legales han dado un vuelco a las "viejas formas" de obtención y recopilación de datos de entrenamiento de IA, y las iniciativas de privacidad han hecho que sea cada vez más difícil para las empresas recopilar los datos necesarios para impulsar su negocio. Buscando inspiración en compañías como Spotify, se sabe que es posible superar el aspecto legal. Dado el sentimiento del consumidor sobre el intercambio de datos, junto con el deseo de una mayor personalización y personalización en sus experiencias de marca, hemos reconocido un mercado gigante para la concesión de licencias de datos de terceros para la reventa (entre muchos otros casos de uso). Oye, ¿qué es el 13% de $300 mil millones de nuevo?


Escrito por Shane Faria, co-fundador @TIKI