Los nuevos 'supermodelos' de la IA: DALL·E 2 y PaLM
Entramos en la era de los grandes modelos de Inteligencia Artificial que empiezan a mostrar unas capacidades de un enorme valor comercial.
En la misma semana, se han publicado dos modelos de IA que van a marcar un antes y un después en la percepción que teníamos sobre el potencial de la IA. Son, por un lado, DALL·E 2, la segunda encarnación de un modelo capaz de generar imágenes alucinantes siguiendo unas directrices proporcionadas en lenguaje natural. Y por otro lado, PaLM, el gran modelo de lenguaje de Google al estilo de GPT-3, pero con unas prestaciones muy superiores, como veremos a continuación
Aprende a incorporar la Inteligencia Artificial de manera estratégica en tu proyecto profesional. ¿Conoces nuestro MásterIIA? Por ser suscriptor de Explicable podrás beneficiarte de un descuento. Utiliza el cupón EXPLICABLE300.
DALL·E y la creatividad
Cuando hace 10 años fuimos testigos por primera vez de las posibilidades del deep learning en visión artificial, fueron muchas las predicciones sobre cómo nos afectaría la irrupción de esta tecnología. Algunas de esas predicciones fueron demasiado optimistas, como, por ejemplo, pensar que la conducción autónoma estaba a la vuelta de la esquina, o que estábamos cerca del fin de los trabajos rutinarios como el diagnóstico radiológico. Otras, sin embargo, con el tiempo han resultado ser demasiado pesimistas, como la idea de que los trabajos que requieren creatividad serían una parcela reservada para los humanos por mucho tiempo.
La aparición en enero de 2021 de la primera versión de DALL·E empezó a cuestionar esta idea, consiguiendo un grado de creatividad hasta ese momento nunca visto, y mostrando al mundo el primer sillón con forma de aguacate que ya es un icono de los modelos de deep learning generativos.
Hoy, el nuevo DALL·E 2, que mejora sustancialmente a su antecesor, certifica que este logro ya está listo para ser explotado comercialmente. DALL·E 2 está entrenado para generar todas las imágenes que según CLIP, otro modelo de OpenAI entrenado con pares de imágenes y textos, encajarían con una descripción determinada. Esto consigue un modelo que es capaz de imaginar nuevas ideas y de combinar conceptos que ha visto por separado, manteniendo la coherencia visual. La descripción actúa como un manual de instrucciones para el modelo. Funciona tanto para describir el contenido de la imagen generada, como para indicar su estilo. En el ejemplo que vemos a continuación, la descripción utiliza como contenido la frase “un astronauta jugando al baloncesto en el espacio con gatos”, y, con respecto al estilo, emplea “como una ilustración de un cuento infantil”. Y esta es sólo una de las imágenes que es capaz de generar para esta descripción porque, si no te convence, el modelo puede generar tantas variaciones de la misma idea como deseemos.
Pero los casos de uso de DALL·E 2 van más allá de la generación de imágenes guiadas por texto. Otra de las aplicaciones que hemos podido ver tras el anuncio es la generación de imágenes inspiradas en otra imagen dada. El resultado es la posibilidad de producir múltiples variaciones de una imagen, que guardan relación visual y conceptual entre sí, como vemos a continuación:
Y el último caso de uso que OpenAI nos ha mostrado es el de edición de imágenes guiadas por una descripción en lenguaje natural. En este caso partimos de una imagen inicial donde marcamos la zona que queremos modificar. A continuación, describimos en lenguaje natural lo que queremos que contenga la nueva imagen. DALL·E 2 se encarga de aplicar los cambios necesarios para cumplir con la descripción, pero únicamente en la zona previamente marcada. Lo más llamativo es que mantiene la consistencia de la escena, incluyendo sombras, reflejos y texturas donde sea necesario como se observa en este ejemplo:
¿Es DALL·E 2 el fin de los diseñadores gráficos? Por el momento parece que no, aunque ciertamente supondrá un cambio importante en su forma de trabajar. DALL·E 2 y sus futuras evoluciones se convertirán en una potente herramienta que aumentará la productividad y servirá de inspiración para generar nuevas ideas, haciendo que los diseñadores sean mucho más prolíficos. Por otro lado, también parece claro que convertirá el diseño gráfico en un servicio más accesible y con un menor coste para aquellas empresas que no tengan unos requisitos de diseño muy elevados.
¿Harán falta menos diseñadores gráficos que en la actualidad? Aunque pudiera parecer que la respuesta es afirmativa, no es del todo evidente.
Si DALL·E 2 acaba produciendo una explosión de creatividad y arte visual en las empresas, entonces necesitaremos más expertos que sepan extraer el máximo valor de todas las herramientas de diseño disponibles, incluyendo las basadas en modelos generativos de Inteligencia Artificial.
De momento DALL·E 2 sólo estará accesible para unos pocos usuarios elegidos por OpenAI que actuarán de beta-testers. OpenAI ha anunciado su intención de ofrecer DALL·E 2 para todos los públicos mediante un modelo de pago por uso.
Más información: https://openai.com/dall-e-2/
PaLM y el razonamiento
GPT-3 fue el primer gran modelo de lenguaje que asombró al mundo, con una capacidad de generar texto sintácticamente, gramaticalmente, y semánticamente correcto (esto último todavía con alguna limitación). Del mismo modo que DALL·E 2 genera imágenes a partir de una descripción, un modelo de lenguaje genera texto para continuar un contexto inicial, llamado prompt en inglés, escrito también en lenguaje natural. Eligiendo el prompt adecuado podemos conseguir que el modelo resuelva tareas de Procesamiento de Lenguaje Natural (NLP por sus siglas en inglés) para las cuales no ha sido específicamente entrenado, como por ejemplo: el análisis de sentimiento, el resumen de textos o la traducción automática.
El nuevo modelo PaLM que ha dado a conocer Google está basado en la misma arquitectura Transformer que utiliza GPT-3. La gran diferencia estriba en el número de parámetros de la red neuronal que forma esta arquitectura, que es un indicador de la capacidad de aprendizaje del modelo una vez entrenado. PaLM contiene 540 mil millones de parámetros, lo cual multiplica por 3 el tamaño de GPT-3. Para ello han tenido que desarrollar un sistema específico, llamado “Pathways system”, un proyecto de ingeniería que sólo empresas como Google pueden acometer. Con este aumento de parámetros, PaLM consigue batir al resto de modelos de lenguaje en los benchmark estándar del campo de NLP, en una carrera hacia modelos cada vez más grandes que aún no ha tocado techo.
PaLM muestra una capacidad de razonamiento hasta ahora nunca vista, que en ojos de un optimista se ve como un paso más hacia la Inteligencia Artificial General. Por ejemplo, una de esas capacidades únicas de PaLM es la explicación de chistes.
El humor es una de las formas más avanzadas de uso del lenguaje. Requiere de un nivel de comprensión elevado, así como de un conocimiento profundo de cómo funciona el mundo y las interacciones entre personas.
En la siguiente imagen podemos observar cómo a partir de un prompt, escrito a modo de instrucciones con dos ejemplos de lo que queremos hacer, el modelo es capaz de explicar correctamente otros chistes aunque no guarden ninguna relación con los primeros.
Una de las críticas más habituales de estos grandes modelos de lenguaje es que se limitan a imitar nuestro lenguaje sin realmente adquirir un nivel de comprensión alto del mismo, como el que sí tiene un humano adulto. Pero si nos fijamos en el progreso en los últimos años, los avances en comprensión de lenguaje son espectaculares, algo que no vaticinaban ni los mayores expertos en NLP. Y es que como ya nos anticipó Richard Sutton en su ensayo “La lección amarga”, si algo nos ha enseñado la historia de la investigación en Inteligencia Artificial es que los problemas que se están tratando de resolver hoy aplicando conocimiento humano, se resolverán en el futuro de manera más efectiva simplemente con más computación. Analizando este, y otros de los resultados obtenidos por PaLM, estamos frente a una más de esas lecciones amargas para muchos investigadores.
Más información: https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
⏭ Si quieres dejar algún comentario, te leemos a continuación. Puedes también seguirnos en
Twitter, LinkedIn y
YouTube.