Indicación: Una mujer elegante camina por una calle de Tokio llena de cálidos neones brillantes y letreros animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo y botas negras, y lleva un bolso negro. Lleva gafas de sol y lápiz labial rojo. Camina con confianza y desenfado. La calle es húmeda y reflectante, creando un efecto espejo de las luces de colores. Muchos peatones caminan.
SORA es el nuevo miembro de la familia OpenAI, junto con Dall-E y ChatGPT, esta IA generativa es capaz de convertir descripciones textuales en videos realistas de hasta un minuto de duración, con una calidad visual impresionante y una amplia gama de posibilidades creativas.
Esto no es una completa novedad, ya que Google está probando una IA llamada Lumiere, Meta tiene un modelo llamado Emu y la start-up de IA Runway ya ha estado construyendo productos para ayudar a los cineastas a crear videos.
Lo importante es que los expertos y analistas de IA han indicaron que la duración y la calidad de los videos de Sora va mucho mas allá de lo que se ha visto hasta la fecha.
.
Indicación: Varios mamuts lanudos gigantes se acercan pisando una pradera nevada, su largo pelaje lanudo sopla ligeramente con el viento mientras caminan, los árboles cubiertos
¿Cómo funciona?
Sora (palabra japonesa para «cielo») es impresionante, utiliza un modelo de IA entrenado con vídeo e imágenes, tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes, puede generar videos de hasta un minuto de duración mientras mantiene la calidad visual y la adherencia a las indicaciones del usuario.
Su funcionamiento se basa en un modelo de lenguaje multimodal que combina el procesamiento del lenguaje natural con el procesamiento de imágenes.
Así funciona:
Entrada de texto: Simplemente le proporcionas una descripción corta a través de un prompts o comando textual.
Comprende el contexto: Sora utiliza este texto para entender el significado y el contexto.
Generación de escenas de vídeo: A partir de la descripción, Sora crea las escenas de vídeo correspondientes en alta definición y con muchos detalles.
Sora es un modelo de difusión, que genera un video comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos.
Es capaz de generar videos completos de una sola vez o extender los videos generados para hacerlos más largos. Al dar al modelo una previsión de muchos fotogramas a la vez, hemos resuelto un problema desafiante de asegurarnos de que un sujeto permanezca igual incluso cuando se pierde de vista temporalmente.
¿Cuándo estará disponible?
OpenAI no anuncio una fecha para el lanzamiento público de Sora, pero comunicaron su intención de hacerlo accesible para todos en el futuro.
Sabemos que inicialmente solo estará disponible para un pequeño grupo de artistas y cineastas, para obtener comentarios sobre cómo avanzar en el modelo para que sea más útil para los profesionales creativos. También tienen acceso a ellos los «red teamers», o investigadores que intentan encontrar formas en que una herramienta de IA pueda usarse con fines maliciosos.
¿Tiene fallas?
Aunque es maravillosa, aun la IA aún tiene algunas limitaciones
Dificultad para simular física compleja: En escenas con movimiento rápido o interacciones físicas complejas, el realismo del video puede verse afectado.
Comprensión de relaciones causales: Sora puede tener dificultades para comprender el orden de los eventos y las relaciones causales en una escena.
Eso lo podemos observar en este ejemplo donde se observan cachorros de lobo, comenzamos viendo tres, luego aparece un cuarto y siguen apareciendo por magia más cachorros. Al principio no lo notas, pero una vez que lo haces, no puedes dejar contar cachorros.
Hablemos de seguridad
Aunque OpenAI indico que estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real, muchos cibernautas han presentado preocupación.
OpenAI reconoce las potenciales preocupaciones sobre el uso indebido de Sora, como la generación de contenido falso o engañoso. La empresa está implementando medidas de seguridad para evitar esto, como:
Un sistema de clasificación de contenido: Para identificar videos que podrían ser falsos o engañosos.
Metadatos C2PA: Para proporcionar información sobre la procedencia y el historial de un video
Aun nos falta alguna información sobre SORA la IA generativa de OpenAI que crea videos a partir de texto
- ¿Cómo podría Sora cambiar la forma en que consumimos y producimos contenido visual?
- ¿Qué medidas se deben tomar para evitar el uso indebido de la IA generativa?
- ¿Qué impacto tendrá la IA generativa en la sociedad en el futuro?