Con este titular Cristóbal Valenzuela, CEO de Runway, anunciaba su modelo de generación de vídeo llamado GEN-1. Este modelo ha surgido del departamento de investigación de Runway, al igual que sucedió con Stable Diffusion, a pesar de que todo el crédito se lo llevó Stability AI. Veremos qué puede hacer GEN-1 y qué futuro dibuja en la producción de contenidos audiovisuales. Además, analizamos ControlNet, una forma ingeniosa de adaptar modelos generativos de imágenes para controlarlos mejor. Pasar de idea a imagen es ahora un proceso más directo, lo que multiplica los usos profesionales de este tipo de herramientas. En cuanto a ChatGPT, ya tenemos una aplicación profesional desplegada a gran escala, para apoyar el trabajo de miles de abogados. ¿Qué impacto tendrá ChatGPT en la economía?
🚀 Si quieres formarte en IA, este es tu momento. Acabamos de lanzar la 6ª edición de nuestro Máster Ejecutivo en Inteligencia Artificial, una formación práctica diseñada por y para profesionales. 100% online, sin requisitos técnicos y en castellano. Y si, además, eres lector de Explicable, te ofrecemos un descuento adicional al precio promocional de lanzamiento. Utiliza: EXPLICABLE300
GEN-1: generación de vídeo guiada
El vídeo es una de las fuentes de información más diversa y abundante que tenemos para entrenar modelos de Inteligencia Artificial. Sin embargo, las aplicaciones de IA para vídeo son todavía muy escasas. Y no nos referimos a los modelos de imágenes actuando individualmente en cada fotograma del vídeo para, por ejemplo, detectar objetos en tiempo real. Hablamos de aplicaciones de IA específicas para video que integran la información sobre la variación de los fotogramas en el tiempo, para, por ejemplo, entender lo que está sucediendo en una escena o generar vídeo consistente a partir de un guión escrito en lenguaje natural.
Todas estas aplicaciones de la IA todavía están en un estado embrionario, pero avanzando a un ritmo cada vez más rápido.
En 2022 pudimos ver los primeros trabajos de investigación enfocados en la generación de vídeo guiado por texto. Meta puso la primera piedra con la publicación de Make-a-video, que además puede animar imágenes estáticas y editar un vídeo según un texto dado. A los pocos días, Google presenta dos modelos generativos de vídeo: Imagen Video, mejorando levemente a Make-a-video, y Phenaki, que, a pesar de no mostrar una gran calidad, es capaz de generar vídeos más largos utilizando instrucciones dinámicas que van cambiando el guión. Ninguno de estos modelos está a disposición de la comunidad, tampoco con fines de investigación. Por tanto, las valoraciones solo las podemos hacer en base a los ejemplos publicados. A pesar de la gran mejora con respecto al estado del arte previo, los resultados todavía están lejos de la calidad necesaria para un uso profesional. Runway acaba de presentar GEN-1 para darle completamente la vuelta a esta situación.
A pesar de que GEN-1 todavía no puede generar vídeo únicamente a partir de un guión, sí incluye varios casos de uso profesional que democratizan la producción de vídeo, abaratando así su coste. Puede transferir el estilo de una imagen o transformar un video en base a una descripción. Por ejemplo, podemos grabar un vídeo de nosotros mismos y generar una animación única de Los Simpson basada en nuestra actuación. También es capaz de transferir el estilo de objetos, por ejemplo: a partir de la grabación de una serie de libros colocados sobre una mesa se puede generar un plano de los rascacielos de una gran ciudad. Otro de los casos de uso es la localización de un objeto dentro de un vídeo y la edición de este mediante texto. Con este caso de uso podríamos cambiar el color o la textura de cualquier mesa para que tenga las características deseadas en nuestra película. Estos son solo algunos de los casos de uso que habilita, aunque hay muchos más, todos ellos orientados a hacer más fácil la producción de vídeo.
Como parte de la apuesta por este tipo de herramientas, Runway también ha organizado el primer festival de cine basado en IA que tuvo lugar en Nueva York a finales de febrero. Y adicionalmente, ha creado su propia productora de cine, Runway Studios, con la misión de producir películas mediante técnicas de IA. Lo cual evita el elevado coste que supone la grabación en estudios y escenarios reales, y contribuye a la democratización de la producción cinematográfica. La calidad de los vídeos generados mediante Inteligencia Artificial no es todavía suficiente para cubrir todas las necesidades de la industria audiovisual, pero GEN-1 supone un paso importante en la dirección correcta. El mismo cambio de paradigma que hemos observado primero en imágenes y luego en lenguaje durante la pasada década gracias al deep learning, llegará también al vídeo, a medida que estos modelos se puedan entrenar con más datos y dispongamos de más capacidad de cómputo.
Más info: https://research.runwayml.com/gen1
ControlNet: domando a la bestia
Llega ControlNet, la pieza que faltaba en los modelos de generación de imágenes para dotarlos de una mayor capacidad de control. Hasta ahora, solo podíamos guiar el proceso generativo mediante texto, lo cual es muy útil cuando no tenemos muy claro lo que queremos producir, convirtiendo a estos modelos en una inagotable fuente de inspiración. Pero, si en nuestra mente tenemos una idea clara de lo que queremos generar, el resultado obtenido no es tan interesante dado que el lenguaje no nos permite describir esa idea con precisión. Cuando queremos trasladar una idea a otra persona, lo habitual es construir un boceto que, aún con baja calidad, sirva de apoyo gráfico a nuestras palabras. Y eso es exactamente lo que consigue hacer ControlNet: dotar de más información y más precisa a los modelos generativos para que el resultado esté más próximo a nuestro objetivo.
Además de generar imágenes a partir de texto y bocetos, ControlNet nos permite generar imágenes a partir de las características esenciales de otra. Por ejemplo, extrayendo el mapa de profundidades de una imagen, podemos generar una nueva respetando esas mismas profundidades. O extrayendo la postura de un individuo en una imagen, podemos generar el personaje que queramos en esa misma postura.
Las posibilidades son infinitas, ya que esta técnica permite condicionar modelos generativos utilizando cualquier característica que podamos extraer de una imagen.
Al introducir dichas características, junto al texto, proporcionamos instrucciones más precisas para el proceso generativo. En el siguiente gráfico podemos ver algunas de estas posibilidades.
La técnica empleada para condicionar estos modelos generativos es una forma novedosa de aprendizaje por transferencia. Consiste en adaptar un modelo ya entrenado para que resuelva un problema diferente dentro del mismo dominio de datos, aprovechando lo ya aprendido. En este caso, ControlNet añade una red neuronal adicional que es la encargada de aprender el conocimiento extra que hay que sumar al modelo inicial para que alcance el objetivo deseado. De momento, solo han aplicado esta técnica a los modelos de difusión para imágenes, aunque el concepto podría también aplicarse a otras áreas del deep learning. Quizá en el futuro veamos un ControlNet para los grandes modelos de lenguaje, con el fin de condicionar el texto de salida a un estilo particular, a un dominio de conocimiento específico o incluso a la ideología del usuario.
Más info: https://github.com/lllyasviel/ControlNet
Harvey: Derecho y ChatGPT
El prestigioso bufete de abogados A&O (Allen & Overy), ha firmado un acuerdo con la empresa Harvey para implantar su versión de ChatGPT especializada en derecho. El modelo de Harvey ayudará en el día a día a más de 3.500 abogados que tiene la compañía en todo el mundo. Lo más relevante de la noticia es que este acuerdo llega tras un periodo de prueba de tan sólo 3 meses con la herramienta, el mismo tiempo de vida que tiene ChatGPT. El responsable de innovación de la firma internacional afirma que, durante el periodo de prueba, ha sido testigo de resultados asombrosos, y considera a Harvey como una disrupción que cambia las reglas del juego. Según la nota de prensa, Harvey hace recomendaciones que permiten a los abogados tomar mejores decisiones y de manera más rápida. Eso sí, también son conscientes de que a estos sistemas no se les puede dejar operando de forma autónoma y requieren de la supervisión de un experto en derecho. ¿Podría acabar Harvey con el trabajo de los pasantes?
Harvey es una empresa salida de un fondo de capital riesgo creado por OpenAI para explotar su tecnología. Con este movimiento, OpenAI nos desvela una estrategia de negocio muy astuta. Ya no aspira únicamente a ser el proveedor de grandes modelos en formato abierto para toda la comunidad, según su propia definición de “abierto”. También financian las aplicaciones clave que se puedan desarrollar con su tecnología, con una fundamental ventaja competitiva: acceso exclusivo a sus modelos. Es decir, Harvey puede adaptar a voluntad los modelos de la saga GPT al campo del derecho. Algo que no pueden hacer sus competidores. Ya hablamos en el Explicable anterior de este método como una de las alternativas para solventar la escasa veracidad del texto emitido por ChatGPT. Es de suponer que Harvey aportará un grado de confianza mayor al haber sido acomodado a los textos legales y al estar sometido a un tipo de diálogos especializados en el día a día de un abogado. Si como todo parece indicar, este proyecto se convierte en el primer gran éxito comercial de ChatGPT, el impacto económico puede ser descomunal por extensión al resto de negocios tradicionales.
Gracias por leer Explicable. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda gustar.
💥Pero atención…💥
Si no recibieses Explicable directamente en tu correo, revisa bien tu correo no deseado. A veces ocurre que nuestros mensajes se van directamente a ese agujero negro denominado “spam”.
Para evitar que esto ocurra, marca nuestra dirección de correo como “no es spam”.
Si eres usuario de Gmail, revisa también la carpeta de “promociones”, porque puede que también nos hayamos escondido allí y mueve el mensaje al inbox principal. GRACIAS.