OpenAI ha llevado la IA generativa a nuevas alturas con Sora, su nuevo modelo de conversión de texto a vídeo que puede generar escenas realistas simplemente a partir de instrucciones escritas. Mientras que DALL-E y otros modelos de conversión de texto a imagen nos han mostrado el poder de la generación de IA, Sora demuestra hasta dónde hemos llegado al agregar el elemento de movimiento.
Probaremos el modelo de Sora una vez que esté disponible y tal vez incluso publiquemos una guía gratuita en nuestro boletín semanal: 'AI Hunters' . ¡No te pierdas las nuevas plataformas y eventos innovadores de IA!
Más allá de las imágenes fijas, Sora puede generar vídeos de hasta un minuto de duración. También puede tomar vídeos existentes y completar los fotogramas que faltan para mejorar el contenido. Las posibilidades de creación son infinitas: en el futuro podríamos ver cortometrajes, animaciones o incluso repeticiones deportivas mejoradas generadas por IA.
Pero lo realmente impresionante de Sora es su comprensión del mundo físico. Puede simular escenas complejas que involucran múltiples personajes y movimientos. ¿Quieres ver a alguien caminando por un bosque con hojas realistas susurrando y la luz del sol filtrándose entre los árboles? Sora te tiene cubierto.
Bajo el capó, Sora aprovecha trabajos anteriores sobre modelos de difusión y transformadores. Los pasos aleatorios de un modelo de difusión destacan a la hora de generar datos de alta dimensión, como vídeos. Mientras tanto, los transformadores manejan tareas de procesamiento de datos secuenciales como el lenguaje natural.
Por supuesto, todavía existen algunas limitaciones. Simular física compleja, como accidentes automovilísticos o caídas desde acantilados, resulta difícil. El modelo también lucha con la causa y el efecto: ¡no espere que los bocados de las galletas aparezcan mágicamente después de que alguien los muerda!
Naturalmente, OpenAI se centra en la seguridad. Antes de su lanzamiento público, están mejorando las técnicas para filtrar contenido dañino o engañoso. El progreso requiere un delicado equilibrio: Sora debe generar de manera realista y evitar cualquier cosa inapropiada.
Por el momento, la empresa ha implementado las siguientes medidas de seguridad:
Restricciones de contenido: OpenAI ha establecido pautas de contenido estrictas para Sora, similares a las vigentes para su modelo DALL-E 3. Estas pautas prohíben la generación de contenido violento, sexual u odioso, así como la apropiación de imágenes de personas reales o el estilo de artistas nombrados.
Identificación y metadatos de procedencia: para promover la transparencia y la responsabilidad, OpenAI planea proporcionar metadatos de procedencia para los videos generados por Sora. Además, la empresa permitirá a los espectadores identificar el contenido creado por el modelo de IA.
Red Teaming y acceso limitado: OpenAI ha otorgado acceso a Sora a un grupo selecto de investigadores, artistas visuales y cineastas que formarán un "equipo rojo" del producto, probándolo para determinar su susceptibilidad a eludir los términos de servicio de la empresa. Este acceso limitado permite a OpenAI recopilar comentarios e identificar riesgos potenciales antes de que el modelo esté más disponible.
Compromiso con formuladores de políticas y artistas: la empresa colabora activamente con formuladores de políticas, educadores y artistas para comprender las inquietudes e identificar casos de uso positivos para el modelo. Este enfoque proactivo demuestra el compromiso de OpenAI de abordar las implicaciones sociales más amplias de su tecnología.
A medida que avanza la IA generativa, modelos como Sora tienen potencial para revolucionar la creación y el consumo de contenido. Podrían generar contenido personalizado, ayudarnos a comprender el mundo y potenciar mundos virtuales realistas.
Sin embargo, es fundamental que estos modelos se desarrollen de manera responsable, considerando los riesgos del contenido generado por IA. OpenAI está tomando medidas importantes con Sora para maximizar sus beneficios y al mismo tiempo mitigar problemas potenciales.