paint-brush
El arte de la creación de datos: detrás de escena del entrenamiento de IApor@keymakr
Nueva Historia

El arte de la creación de datos: detrás de escena del entrenamiento de IA

por Keymakr8m2025/02/18
Read on Terminal Reader

Demasiado Largo; Para Leer

La creación de datos es el proceso de generar conjuntos de datos de imágenes y videos personalizados adaptados a las necesidades específicas de un proyecto. La creación de datos se está volviendo cada vez más popular debido a las crecientes demandas de calidad y volumen de datos. Las empresas invierten en la creación de datos para mejorar la precisión y el rendimiento de los modelos.
featured image - El arte de la creación de datos: detrás de escena del entrenamiento de IA
Keymakr HackerNoon profile picture

¿Sabes cómo se crean las superproducciones a gran escala? El proceso incluye ubicaciones cuidadosamente seleccionadas, equipo profesional, actores, operadores de cámara, especialistas en iluminación y todo un equipo para recrear cada escena con precisión. En el mundo de la IA, la creación de datos funciona de la misma manera. Refleja este proceso cinematográfico, pero en lugar de entretener al público, el objetivo es producir los "fotogramas" necesarios para que los algoritmos aprendan de manera efectiva.


Según Cognilytica , el 80 % del desarrollo de la IA no se trata del entrenamiento en sí, sino de la preparación de los datos (creación, recopilación, anotación y procesamiento). En una de estas etapas, cuando los datos del mundo real son insuficientes, entra en juego la creación de datos. Cuanto más realista y diversa sea la "escena", más inteligente se vuelve la IA.


Dennis Sorokin, jefe de gestión de proyectos de Keymakr , comparte conocimientos sobre la importancia, el proceso, los desafíos y las aplicaciones reales de la creación de datos.

¿Qué es la creación de datos?

La creación de datos es el proceso de generar conjuntos de datos de imágenes y videos personalizados adaptados a las necesidades específicas del proyecto. Estos conjuntos de datos deben reflejar con precisión situaciones del mundo real. La creación de datos se está volviendo cada vez más popular debido a las crecientes demandas de calidad y volumen de datos, especialmente en los sectores automotriz, médico, de sistemas de seguridad, deportivo y minorista. Las empresas invierten en la creación de datos para mejorar la precisión y el rendimiento de los modelos.



La creación de datos se utiliza normalmente cuando no se dispone de datos reales o estos son insuficientes. Este proceso puede incluir:


  • Ampliación de conjuntos de datos existentes: modificación de condiciones, adición de objetos o aumento de la variabilidad. Las empresas pueden comprar conjuntos de datos existentes y solicitar a empresas especializadas que los anoten.


  • Generación de datos sintéticos: uso de herramientas de software para crear imágenes, textos o vídeos para el entrenamiento de modelos. Por ejemplo, el software puede generar imágenes o vídeos en función de un escenario determinado. Sin embargo, los datos sintéticos tienen limitaciones: se generan en función de parámetros predefinidos y carecen de la variabilidad natural de los datos reales. Como explica Dennis Sorokin, "en tareas del mundo real, especialmente cuando se requiere una precisión superior al 99 %, los datos sintéticos no proporcionan la calidad necesaria. Un sistema con una tasa de error incluso del 0,1 % podría identificar erróneamente a cientos de personas en un aeropuerto o provocar situaciones peligrosas en la carretera. Por eso los escenarios personalizados son cruciales".


  • Creación de datos para casos extremos: captura de imágenes y vídeos en situaciones únicas para garantizar la fiabilidad del modelo. Para tareas complejas, los datos reales son esenciales. Por ejemplo, para entrenar un modelo para que reconozca la inconsciencia del conductor, se requieren al menos 1000 vídeos con distintas personas que simulen esta condición. Los participantes reciben instrucciones sencillas como "finge que pierdes el conocimiento" sin especificar cómo. Una persona puede inclinar la cabeza, otra puede cerrar los ojos y otra puede inclinarse hacia un lado. Esta variabilidad natural hace que los datos reales sean increíblemente valiosos y mejoran significativamente la precisión del entrenamiento del modelo.

Casos de uso para la creación de datos

La cartera de Keymakr incluye numerosos rodajes para diversos proyectos, cada uno con requisitos únicos, desde equipos y cámaras hasta actores y ubicaciones en Europa, Estados Unidos y Canadá. “Entender todos los matices del proyecto es esencial para ofrecer soluciones únicas. Este proceso realmente se parece a dirigir una película de Hollywood y es muy interesante. Cualquier escenario es solucionable siempre que se ajuste a los estándares éticos, morales y legales”, dice Sorokin.


Proyectos en cabina

Un ejemplo son los proyectos centrados en detectar las distracciones de los conductores. Keymakr ha desarrollado una serie de escenarios para simular comportamientos de distracción habituales, como:


  • Uso de teléfonos móviles mientras se conduce
  • Mirar frecuentemente el espejo retrovisor en lugar de concentrarse en la carretera
  • Encender cigarrillos o usar encendedores
  • Beber de botellas o con pajita
  • Llevan sombreros que ocultan sus rostros, lo que dificulta que las modelos los identifiquen.


Estos escenarios se modelaron en condiciones controladas con docenas de participantes. En un proyecto, se utilizaron más de 5000 videos cortos de entre 1 y 5 minutos que captaron a los participantes realizando diversas actividades que los distraían. Esto permitió que el sistema reconociera patrones de comportamiento y respondiera de manera adecuada a situaciones inusuales.



Reconocimiento de ataques armados

La creación de datos se utiliza a menudo para modelos de IA centrados en la seguridad de la oficina. Un proyecto reciente implicó escenarios que simulaban:

  • La aparición de una persona armada amenazando a los rehenes.
  • La transferencia de armas entre particulares
  • Incidentes de tiroteos y víctimas heridas


Para entrenar el modelo se necesitaron más de 3.000 vídeos que mostraban diversas combinaciones de comportamiento agresivo, movimientos grupales y manejo de objetos.


Proyectos de seguridad

Keymakr trabajó en proyectos de cámaras de seguridad para aeropuertos diseñadas para reemplazar a los guardias fronterizos. Las cámaras debían:

  • Reconocer rostros y relacionarlos con datos del pasaporte
  • Controlar automáticamente las puertas de acceso


El proyecto requirió:

  • Datos de 5.000 personas de diversos orígenes étnicos
  • Alrededor de 1.000 escenarios en diferentes condiciones (poca iluminación, exposición directa a la luz, mal tiempo)
  • Escenarios en los que los participantes se cubrieron el rostro con las manos, usaron gafas, sombreros o capuchas.


Un aspecto fundamental fue la recopilación de datos de grupos demográficos específicos, como los afroamericanos mayores de 50 años o los individuos del sur de Asia. Estos datos específicos no están disponibles públicamente, lo que subraya la necesidad de una creación de datos personalizada.

Datos médicos e instructores de fitness virtuales

Keymakr también crea datos para proyectos médicos y sistemas de instructores de fitness virtuales. Si bien este último aún está en sus inicios, la demanda está creciendo, especialmente con el auge de los entrenamientos y la rehabilitación a distancia.


Al igual que el Kinect de Xbox, estos sistemas utilizan sensores para rastrear los movimientos del usuario en tiempo real. La tecnología moderna permite no solo rastrear el movimiento, sino también analizar en detalle la ejecución del ejercicio. Para la rehabilitación, los movimientos precisos son cruciales, como llevar la punta del dedo al hombro en un ángulo específico. El sistema proporciona retroalimentación, corrige la postura, resalta los errores y sugiere ajustes.


Para un proyecto, Keymak r filmó extensamente sesiones de entrenamiento, que incluían ejercicios como estocadas, saltos y levantamientos de piernas. Alrededor de 60 participantes realizaron ejercicios durante 15 minutos cada uno, con grabación continua para recopilar datos para una anotación precisa de los movimientos. Las filmaciones fueron físicamente exigentes, incluso para los participantes más jóvenes, debido a las actividades repetitivas y de alta intensidad.


Estudios médicos: Reacción de la pupila a la luz

Para un proyecto de una empresa de biometría, Keymakr capturó datos sobre las reacciones de las pupilas a los estímulos luminosos utilizando un equipo especializado parecido a unos binoculares. El objetivo era analizar los tiempos de respuesta de las pupilas a las condiciones de luz cambiantes.


Participaron alrededor de 200 personas, a quienes se les dio una formación detallada para garantizar la seguridad del procedimiento.


El experimento implicó:

  • Apagando las luces
  • Esperando 30 segundos
  • Aumento gradual de la luz. Análisis de las reacciones de las pupilas.
  • El estudio proporcionó datos valiosos sobre la dinámica de la respuesta ocular, ayudando a diagnosticar afecciones neurológicas y oculares.


El proceso de creación de datos

La creación de datos de calidad es un proceso de varios pasos que implica una planificación, recopilación, procesamiento y entrega cuidadosas. Según la tarea, este proceso puede variar significativamente.


Las etapas clave incluyen:


  1. Definición de objetivos: clarificación de los requisitos del modelo, los escenarios y los resultados esperados. El alcance del trabajo incluye:
  • Tipos de datos necesarios Condiciones de disparo (iluminación, entorno, ángulos)
  • Datos demográficos de los participantes (edad, género, etnia)
  • Equipos (cámaras, sensores, dispositivos)
  • Métodos de anotación


  1. Organización y realización de rodajes: el proceso depende del tipo de datos:
  • La investigación médica utiliza sensores especializados

  • El análisis de movimiento emplea configuraciones de múltiples cámaras.

  • Las cámaras del automóvil capturan el comportamiento del conductor y el pasajero


Antes de filmar, se revisa el equipo, se prueban los escenarios y se informa a los participantes. Se presta especial atención a la creación de datos en condiciones que imitan fielmente las operaciones del mundo real. Por ejemplo, en los proyectos de análisis de la fatiga del conductor, se simulan las condiciones de los viajes largos, mientras que en los estudios sobre el mareo por movimiento, se registran los cambios de estado de los pasajeros en diferentes condiciones de movimiento.


  1. Procesamiento y anotación de datos: Después de la toma:
  • Filtrar y seleccionar material relevante
  • Ajustar la calidad de la imagen (color, iluminación, nitidez)
  • Anotar puntos clave (ojos, labios, manos, postura corporal)
  • Clasificar acciones (giros de cabeza, parpadeo, uso del teléfono)


Para la anotación se utilizan tanto métodos manuales como herramientas automatizadas. En ocasiones, los clientes requieren detalles específicos, como el seguimiento de micromovimientos oculares en investigaciones médicas o el análisis de cientos de parámetros de comportamiento del conductor.


  1. Entrega de datos: Los conjuntos de datos finales están estructurados para el uso del cliente, incluidos:
  • Vídeos comentados
  • Imágenes etiquetadas
  • Tablas de parámetros con características de movimiento


También se tienen en cuenta cuestiones relacionadas con el almacenamiento y la transferencia de datos. Por ejemplo, el volumen de un vídeo en 4K de varias horas de grabación puede alcanzar varios terabytes, lo que requiere servidores especiales o soluciones en la nube.

Desafíos en la creación de datos

A la hora de crear datos es fundamental tener en cuenta no sólo las limitaciones técnicas sino también los aspectos legales y éticos del trabajo con datos.


"En el mundo de los datos, donde cada detalle importa, no basta con crearlos; es fundamental garantizar su precisión, diversidad y cumplimiento de los estándares éticos. Sin esto, todo el proceso pierde su valor y corre el riesgo de distorsionar la realidad", afirma Dennis Sorokin.


  • Diversidad de participantes

Dependiendo del proyecto, es posible que los participantes deban pertenecer a diferentes grupos de edad, género, nacionalidad y tonos de piel. En algunos casos, se requieren participantes con características específicas, como personas mayores para estudios médicos con diversas expresiones faciales para el análisis de emociones o individuos con rasgos fisiológicos particulares para sistemas biométricos.


Encontrar participantes adecuados en diferentes regiones puede ser un desafío. A veces, el proceso de "selección" puede llevar semanas o incluso meses para garantizar la cantidad adecuada de participantes para crear conjuntos de datos verdaderamente variados con diferentes miembros de la comunidad.


  • Volumen de datos y limitaciones técnicas

La captura de vídeo de alta calidad requiere importantes recursos de almacenamiento y transferencia de datos. Por ejemplo, grabar un vídeo en 4K durante una hora puede ocupar varias decenas de gigabytes. Las cámaras especiales, como las de infrarrojos, térmicas, etc., pueden producir incluso más datos. Si se utilizan varias cámaras en el proyecto, el volumen total de datos puede aumentar a varios terabytes. La organización del flujo de trabajo requiere un equipo potente y una logística cuidadosamente planificada, desde la transferencia eficiente de datos hasta la anotación y la entrega a los clientes.


  • Desafíos éticos y legales

La creación de datos plantea varias cuestiones éticas y legales, especialmente cuando implica la recopilación de información que contiene imágenes de personas, datos biométricos o acciones en lugares públicos. Desde una perspectiva ética, todos los participantes en la filmación deben dar su consentimiento informado para que se utilicen sus datos firmando los documentos necesarios. La confidencialidad también juega un papel fundamental: es necesario garantizar que no se pueda identificar a las personas cuando el cliente no lo requiera y cumplir con las normas de protección de datos. Otro problema acuciante es la manipulación de datos: los modelos artificiales o las escenas preparadas deben reflejar fielmente la realidad para evitar la distorsión de la información y el sesgo algorítmico.



Desde un punto de vista legal, el principal desafío radica en la protección de los datos personales. Regulaciones como el RGPD en Europa y la CCPA en los EE. UU. establecen pautas estrictas para la recopilación y el procesamiento de datos, incluidos los derechos de los participantes a solicitar la eliminación de sus datos. También existen restricciones sobre el uso de los datos recopilados con fines comerciales: la información recopilada para un proyecto no siempre se puede revender o utilizar en otra investigación sin el consentimiento de los participantes. Además, las leyes sobre filmaciones públicas difieren de un país a otro: algunos lugares permiten filmar a personas sin su consentimiento. En cambio, otros requieren permisos específicos, especialmente cuando los datos se utilizan con fines comerciales o de investigación. Adherirse a las normas éticas y los requisitos legales es un aspecto clave del manejo de datos, que ayuda a mitigar los riesgos y garantiza que la información se use de manera adecuada y segura.

Conclusiones

Dennis Sorokin cree que la creación de datos sigue siendo un campo muy solicitado, en particular en proyectos que requieren materiales de vídeo específicos que no se encuentran en el dominio público. “Tanto si se está entrenando a la IA para el transporte de última generación, analizando el comportamiento de los consumidores en las tiendas o ampliando los límites de la investigación médica, la clave es mantenerse flexible, preciso y alineado con lo que necesitan los clientes”, afirma. A pesar de los desafíos, este campo sigue evolucionando, encontrando aplicaciones en diversas industrias y ganando cada vez más atención y demanda.