Cómo la IA generativa podría permitir una nueva era en el cine
(Variety) -- Imagine una producción de Hollywood sin cámaras, decorados, localizaciones e incluso actores.
Por impensable que parezca, es un futuro que podría comenzar a surgir con la inteligencia artificial generativa. Las herramientas de IA de generación y sus modelos subyacentes están comenzando a ofrecer capacidades que avanzan hacia la posibilidad de una producción sintética que permitiría reemplazar ciertos métodos de producción física.
Los modelos de difusión de vídeo, los campos de radiación neuronal (NeRF) y los avatares de vídeo se encuentran entre las herramientas emergentes de IA que podrían empezar a revolucionar la cinematografía:
1. Generación de vídeo: las herramientas de vídeo generativo, como Gen-2 y Pika de Runway, que utilizan modelos de difusión de vídeo , son capaces de sintetizar vídeos novedosos y crear animaciones cortas y silenciosas a partir de mensajes de texto, imágenes o vídeos. Los investigadores de Meta y Google han desarrollado modelos inéditos con capacidades similares, incluidos Emu Video e Imagen Video , respectivamente. Además, se espera que el próximo modelo multimodal Gemini de Google ofrezca capacidades de generación de video, ya que es probable que OpenAI lo lleve a ChatGPT a finales de este año con su actualización del modelo GPT-5.
Algunos han comparado los modelos de difusión de vídeo con un nuevo tipo de cámara, aunque el vídeo se reproduce en lugar de grabarse físicamente. Las capacidades del modelo han mejorado dramáticamente durante el último año de desarrollo, lo que permite resultados más largos, mejor consistencia temporal y mayor fidelidad. A partir de una actualización reciente, Gen-2 de Runway puede generar videos de hasta 18 segundos de duración, en comparación con cuatro.
Por ahora, las salidas de vídeo sin procesar de dichas herramientas todavía son demasiado limitadas para ser imágenes utilizables en pantalla para una película de alto valor de producción o televisión premium. Dejando a un lado las cuestiones de derechos de autor, estas herramientas están considerablemente limitadas a la hora de brindar a los artistas profesionales el control necesario sobre la producción, es decir, la facilidad con la que pueden derivar o manipular un resultado para lograr una apariencia específica.
Pero se espera que la calidad y el realismo de los resultados de los modelos de difusión de vídeo sigan mejorando, lo que sugiere una utilidad potencial más seria en el futuro. A menudo también se agregan nuevos y poderosos parámetros de control a las herramientas de software para permitir a los usuarios cambiar más específicamente la forma en que se reproduce el video, como el Modo Director de Runway en Gen-2 que permite zoom, ajustes de velocidad y rotaciones de la "cámara". Runway también lanzó recientemente Multi Motion Brush , que permite a los editores de video controlar áreas seleccionadas de un video con movimiento independiente.
2. Campos de radiación neuronal (NeRF): los NeRF han ganado atención en los círculos de efectos visuales para casos de uso de producción de entretenimiento. Aplicaciones como Luma AI y Nvidia Instant NeRF permiten a los usuarios crear NeRF a partir de videos grabados en un iPhone, aunque los NeRF creados a partir de videos grabados con cámaras de producción serán de mayor calidad.
Para crear un NeRF, se entrena una red neuronal con un simple video grabado desde cualquier cámara o solo con un conjunto parcial de imágenes 2D, lo que significa que no es necesario que muestren todas las perspectivas, lados o ángulos del objeto o escena. Luego, la red puede generar una representación 3D de alta fidelidad de un objeto o escena al inferir puntos de vista invisibles, incluso aquellos que no se capturan en los datos de entrenamiento proporcionados al modelo.
En una mejora con respecto a la fotogrametría , los NeRF también retienen y representan dinámicamente todos los reflejos, la iluminación y las cualidades de diferentes materiales (por ejemplo, la transparencia del vidrio, el brillo del metal, la piel humana).
Los NeRF podrían presentar un potencial impresionante para los efectos visuales e incluso para los directores. Una vez creada, una única captura NeRF puede representar cualquier cantidad de nuevas visualizaciones 3D, que luego podrían procesarse en la nube y exportarse en una variedad de formatos editables en 3D.
Análogamente a una cámara virtualizada que opera y se mueve dentro del espacio volumétrico 3D, un único NeRF permite a los creadores renderizar infinitos recorridos y encuadres de "cámara" desde cualquier ángulo o posición, permitiendo tomas físicamente "imposibles" y la posibilidad de redefinir el encuadre de una escena. en la publicación.
Análisis VIP+: comprender los riesgos de la IA es el primer paso hacia la adopción
También se ha llamado la atención sobre el uso de NeRF para la producción virtual , reemplazando el contenido que se incluye en los volúmenes LED . En la producción virtual, en lugar de pantallas verdes, se construyen paredes LED alrededor de un escenario y muestran entornos completamente renderizados sincronizados con el movimiento de la cámara en el set.
Normalmente, las imágenes mostradas en estos volúmenes requieren que los artistas de efectos visuales produzcan un modelo 3D realista del entorno de la escena en Unreal Engine . Pero ahora, los NeRF pueden ser una forma mucho más fácil y económica de crear estas escenas 3D, ya que un pequeño equipo de fotógrafos puede simplemente ir a la ubicación de la escena y capturar videos o imágenes del entorno para renderizarlos como un NeRF.
3. Avatares de vídeo: las herramientas de IA generativa desarrolladas por Synthesia , Soul Machines y HeyGen pueden crear avatares fotorrealistas completamente sintéticos que combinan vídeo deepfake y voz sintética para replicar con precisión la apariencia, la voz, las expresiones y los gestos de una persona específica. Estos avatares personales únicos de IA han sido denominados humanos digitales, gemelos, dobles o clones.
Los sistemas de inteligencia artificial crean el modelo personalizado de una persona entrenando con cantidades variables de datos audiovisuales, ya sea capturados en estudios o como secuencias de video de una persona hablando directamente a la cámara. Los avatares de IA se encuentran en un amplio espectro de realismo, y algunos son hiperrealistas casi imperceptibles de la persona real, mientras que otros todavía tienden a parecerse a gráficos 3D o "parecidos a un juego".
Para sus capacidades de habla, a los avatares se les puede proporcionar una transcripción que luego pueden dictar; o para permitir la interacción conversacional, se combinan con un modelo de lenguaje grande (por ejemplo, GPT-4) para que sirva efectivamente como base de conocimiento o "cerebro", que se puede personalizar según la "personalidad" de un individuo con capacitación adicional.
Por ejemplo, Soul Machines entrena grandes modelos de lenguaje y sistemas de habla en cientos de horas de entrevistas para replicar cómo respondería un individuo en una conversación, incluso en lo que dice y cómo lo dice. Como resultado, los avatares se pueden representar para hablar cualquier idioma disponible en un modelo de lenguaje grande.
Por ahora, por realistas que parezcan algunos avatares, muchos solo tienen un rango de movimiento y expresividad facial limitados y, en general, permanecen en el valle inquietante : la teoría que describe la incómoda respuesta emocional que tenemos hacia figuras humanoides no del todo reales.
Sin embargo, a medida que avanza la tecnología, parece existir la posibilidad de que avatares hiperrealistas totalmente sintéticos crucen el valle inquietante y miren, hablen y se comporten de manera indistinguible de una persona real, ya sea entrenada con los datos de un actor o con personas virtuales completamente nuevas.
Aun así, muchos, incluidos los propios desarrolladores de IA, creen que es poco probable que los actores sintéticos reemplacen completamente las actuaciones humanas en cine y televisión, al menos por parte de los actores principales. Aparte de las implicaciones éticas o para el consumidor , se entiende que sería extremadamente difícil replicar de manera realista todo el rango emocional y la capacidad de respuesta de un actor humano de una manera que capturara el genio o la magia incuantificable de una actuación.
Las implicaciones a largo plazo de la representación sintética de elementos cinematográficos (actores y vídeo en particular) son potencialmente grandes. Como se teoriza, un nuevo paradigma de generación de videos con IA (representación de videos sintéticos con modelos de IA) reemplaza la producción física. Por ejemplo, si los escenarios se pueden crear completamente dentro de una computadora, las tomas en el set o en locaciones y la propia cámara se vuelven casi prescindibles. Sin embargo, visto desde otro punto de vista, esto sólo sería una continuación de una tendencia hacia el CG y la producción virtual, donde lo que se captura físicamente frente a la cámara ya difiere considerablemente del aspecto final de una película.
Si bien no es probable que las técnicas de producción sintéticas reemplacen los ingredientes básicos del cine tradicional en el corto plazo, la cuestión de hasta qué punto la producción se “virtualiza” con la IA puede depender cada vez más de aspectos prácticos legales o contractuales, principios o escrúpulos creativos y la aceptación del consumidor.
Yorumlar