Cerco a GPT-4 y momento musical
Reflexiones sobre inteligencia artificial que importan a los negocios
El boom de la Inteligencia Artificial basada en redes neuronales profundas irrumpió con las tareas de visión en el año 2012. Las máquinas podían ver, lo cual abrió un mundo de nuevas posibilidades en el mundo del software, con aplicaciones como la detección automática de defectos de fabricación, el reconocimiento facial y la conducción autónoma. Las mismas redes se utilizaron con gran éxito también en el reconocimiento de voz, haciendo que las máquinas además de ver, pudieran también oír. El lenguaje natural se resistió un poco más, pero gracias a la aparición de la arquitectura Transformer, las máquinas ahora también pueden entender y generar sus propias respuestas, siendo GPT-4 el líder absoluto en esta categoría. En 2022 entramos en la era de la IA generativa, donde las máquinas pueden crear imágenes, texto, vídeo y audio. Hasta 2024, la calidad de los vídeos generados dejaba mucho que desear, debido, principalmente, a la gran cantidad de recursos computacionales que requería. Pero, si algo hemos aprendido de la historia de la informática, es que la capacidad de computación siempre aumenta a un coste cada vez menor. Por eso, era cuestión de tiempo que aparecieran aplicaciones como Sora, dejándonos a todos boquiabiertos.
El caso de la música era más extraño, pues no requiere tanta computación, y, sin embargo, la música generada por IA le faltaba alma. En Explicables anteriores, la calificábamos como música de ascensor, intrascendente e incapaz de transmitir emociones. ¿Qué ha cambiado pues para que aplicaciones como Udio y Suno nos dejen asombrados por la calidad de la música generada?
🚀 Si quieres formarte en IA, este es tu momento. Acabamos de lanzar la 7ª edición de nuestro Máster Ejecutivo en Inteligencia Artificial, una formación práctica diseñada por y para profesionales. 100% online, sin requisitos técnicos y en castellano. Y si, además, eres lector de Explicable, te ofrecemos un descuento adicional al precio promocional de lanzamiento. Utiliza: EXPLICABLE300
Momento musical
A finales de 2023, ya vimos la antesala de lo que está ocurriendo ahora en el mundo de la IA y la música. La empresa Suno mostraba la primera versión de su IA generativa de música, capaz de generar canciones de muchos estilos, a partir de una simple descripción. El salto de calidad era importante con respecto a lo que había hasta el momento, aunque todavía no era música que nos hiciera vibrar.
Cuando hablamos aquí de calidad no nos referimos a la fidelidad del audio, sino a la valoración y experiencia subjetiva que todos tenemos de una composición musical.
Suno se hizo muy popular como forma de pasatiempo, creando canciones divertidas con letras personalizadas de nuestro círculo más inmediato. En marzo, Suno lanzó su versión 3, mejorando aún más la calidad con audios de hasta 2 minutos de duración. Y, 3 semanas más tarde, Udio salió del anonimato con el generador de música más avanzado hasta el momento. Después de probar ambas herramientas, podemos decir que estamos ante un hito importante en el campo de la IA por varios motivos:
En primer lugar, uno de los problemas de la IA generativa ha sido la dificultad de generar contenido largo en el tiempo que mantenga una estructura clara o un hilo conductor bien articulado. Escribir un buen ensayo, o una buena canción, no consiste únicamente en escupir palabras o notas que queden bien en un momento dado. Las palabras o notas escogidas deben mostrar una coherencia temporal con todo lo generado anteriormente, además de una estructura y dirección especialmente diseñadas. En una canción, hablaríamos de repeticiones, modulaciones en momentos claves, patrones rítmicos y armónicos, y un sinfín de elementos que se combinan con un sentido claro de principio a fin. Esto es lo que hace que una pieza musical sea redonda y transmita emociones a los oyentes. Si Suno y Udio son capaces de generar música interesante, es porque sus modelos de IA son capaces de entender y aplicar mejor estos patrones en el conjunto de la obra. Con esto, no queremos decir que estos sistemas puedan componer música como un humano, ya que todavía requieren de mucha supervisión y múltiples intentos hasta dar con algo realmente bueno. Pero sí sabemos que estos modelos son capaces de imitar aquello que los humanos hemos encontrado a lo largo de la historia de la música y obtienen resultados con la calidad suficiente para muchos casos de uso profesionales.
El segundo motivo por el cual estos nuevos modelos suponen un hito radica en que, por primera vez, se ha desafiado a la industria discográfica entrenando modelos con la música más comercial. Aunque ninguna de las dos empresas se ha pronunciado al respecto, parece lógico, dado el gran salto de calidad obtenido frente a modelos previos que solo utilizaban música de uso libre. Esto refuerza la idea de que, a partir de cierto volumen de datos, la calidad es mejor que la cantidad. No sería de extrañar que el próximo paso de las discográficas sea interponer demandas para proteger su negocio argumentando que el entrenamiento de estos modelos infringen el copyright de sus obras protegidas, al igual que ya ha ocurrido en el caso de ‘The New York Times’ contra OpenAI. El resultado de estas demandas marcará el devenir de la IA generativa en cualquiera de sus modalidades, aunque siempre nos quedará Japón.
Sora y su modelo del mundo
Al igual que con la música, otra de las barreras que ha superado la IA en este 2024 es la generación de vídeo de alta calidad con potenciales usos profesionales. O al menos eso parece a tenor de los ejemplos que ha publicado OpenAI de Sora, su modelo de texto a vídeo que aún no está disponible para todos los públicos. Uno de los aspectos más interesantes de la publicación es la afirmación de que Sora posee un modelo del mundo que utiliza para producir vídeos con consistencia espacial y temporal. Este modelo del mundo no es como el que formamos nosotros cuando interactuamos con él, sino que es inferido únicamente a partir de los datos de entrenamiento (probablemente de millones de vídeos de Youtube).
Por eso, es un modelo del mundo quebradizo. Es decir, no es robusto frente a la infinidad de situaciones que se pueden dar en el mundo real.
Y, para ilustrarlo, nos muestran algunos vídeos generados donde aparecen y desaparecen personas, o donde un vaso que cae sobre una mesa se rompe antes de tocarla.
En el video superior generado por Sora podemos observar cómo la sombra que proyecta el tren en movimiento sobre el que está parado no es consistente, teniendo en cuenta la altura de los vagones. Esto mismo podemos decir de los modelos de lenguaje tipo ChatGPT, a partir de todo el texto que procesa durante su entrenamiento infiere un modelo del mundo excesivamente simple, que le sirve para dar respuestas a los razonamientos más básicos. Del mismo modo, también es quebradizo, ya que comete fallos cuando variamos ligeramente el contexto del problema.
Otra de las características relevantes de un modelo como Sora es su capacidad para generar vídeos sintéticos prácticamente indistinguibles de la realidad. Por tanto, uno de los principales retos es evitar su uso potencial para generar deepfakes con fines maliciosos. Este es un de los motivos por los cuales OpenAI decide no publicarlo por el momento.
El problema de desinformación por la propagación de vídeos falsos es más complejo; y no se soluciona impidiendo que una empresa publique su tecnología.
Dado el cambio de paradigma, va a requerir un esfuerzo de educación por parte de la sociedad para que siempre verifique la credibilidad de la fuente, antes de creer lo que ven sus ojos en una pantalla. Y, por supuesto, la ley debe castigar con dureza a aquellos que traten de utilizar deepfakes con la intención de engañar, manipular o difamar, adaptando delitos que hoy en día ya están tipificados.
Otra de las soluciones propuestas es la de dotar a las cámaras de vídeo de un mecanismo de firma digital integrado en el sensor, el cual permita verificar a posteriori que un vídeo grabado por ellas es auténtico y no ha sido manipulado. Esta propuesta podría ser la forma de que los medios de comunicación certifiquen que el contenido que reciben de sus corresponsalías es real. En otros escenarios, como los vídeos grabados por un móvil, presenta desafíos de seguridad y de despliegue todavía sin resolver.
Cerco a GPT-4
Resulta sorprendente que, tras más de un año desde su publicación, GPT-4 siga liderando la carrera de los LLMs (Large Language Models). Aunque el cerco de sus rivales se está estrechando a gran velocidad.
Existen dos formas de medir el desempeño de un LLM. La primera, mediante benchmarks o evaluaciones a partir de un conjunto de pruebas preestablecido, siendo MMLU (Massive Multitask Language Understanding) el más popular. MMLU es un benchmark compuesto por 15.908 tests repartidos en 57 áreas de conocimiento. Cada test está formado por una una pregunta y cuatro opciones de respuesta. La evaluación más frecuente es la de 5-shot, donde al modelo se le proporcionan 5 ejemplos de preguntas y respuestas en el prompt antes de medir su desempeño ante una nueva pregunta. Atendiendo a este benchmark, Claude Opus es el único modelo que supera con un 86,8% de tasa de acierto a GPT-4, que obtiene un 86,4%. Aunque Gemini Ultra se anunció con un 90% de tasa de acierto, utilizaron, para ello, una técnica específica en el prompt que impide hacer una comparación justa. De hecho, aplicando los mismos criterios la tasa de acierto de Gemini Ultra baja hasta el 83,7%.
Al igual que MMLU, existen multitud de benchmarks orientados a medir distintas capacidades de los modelos de lenguaje, como sus conocimientos en matemáticas, programación, o su capacidad de razonamiento. Estas evaluaciones sirven como referencia, pero no reflejan el desempeño real de un LLM para cada caso particular. En primer lugar, todas estas pruebas están en inglés, y hay muy pocas que muestren el desempeño en otros idiomas como el español. Además, los datos de los benchmarks se podrían haber filtrado al conjunto de datos con los que se entrenan estos modelos, de manera que los resultados estarían contaminados y de poco servirían. Así que la única alternativa que nos queda para medir el desempeño real es probarlos todos, y elegir el que mejor se ajuste a nuestras demandas.
Con ese objetivo, investigadores de la Universidad de Berkeley crearon Chatbot Arena, donde los usuarios mediante un sistema de crowdsourcing lanzan la misma petición a dos LLMs seleccionados aleatoriamente y votan qué respuesta es mejor. En la práctica es como si los dos LLMs compitieran entre sí, donde uno resulta ganador. Según las victorias de cada modelo, se establece una puntuación similar al sistema de clasificación Elo en el ajedrez, con el que se mide el ranking de los jugadores. Aplicando este sistema, el ganador absoluto sigue siendo GPT-4, con Claude Opus y Gemini Pro 1.5 pisándole los talones. Un peldaño por debajo destaca LLaMa 3 de Meta, que acaba de entrar con fuerza en este ranking y promete revolucionar el mercado de los LLMs. Al ser un modelo disponible en abierto y de un tamaño razonable, cualquier empresa lo puede introducir en su propia infraestructura, con la consiguiente reducción de costes y sin el problema de enviar datos confidenciales a un tercero. Y, ciertamente, OpenAI no puede dormir tranquilo, porque Meta está preparando una versión de LLaMa 3 de 400 mil millones de parámetros que aspira a ser el primer modelo open source que destrone a GPT-4.
Meta AI, Inc.
Meta aparcó el metaverso y se entregó a la IA. Cuentan entre sus filas con Yann Lecun, una de las mentes más lúcidas en todo el maremágnum de información que existe en torno a la IA. Además del impresionante modelo LLaMa 3 del que acabamos de hablar, Meta está detrás de otros modelos con mucho valor para los negocios menos sonados. Por ejemplo, SAM, un modelo del que también hemos hablado en Explicables anteriores, capaz de segmentar cualquier imagen sin tener que adaptarlo y guiado mediante simples instrucciones en lenguaje natural. Y, más recientemente, destacamos la publicación de SceneScript, un modelo capaz de identificar la estructura tridimensional de los elementos principales de un espacio interior.
Además de su evidente utilidad para arquitectos e interioristas, uno de los aspectos más interesantes de este trabajo es que ha sido entrenado con un conjunto de datos totalmente sintético.
Estos datos sintéticos se generan a partir de escenas 3D previamente diseñadas en un estudio de arquitectura, lo cual supone dos ventajas extraordinarias para cualquier proyecto de inteligencia artificial: la primera es que consigue un coste de adquisición y etiquetado de datos prácticamente nulo, fruto del trabajo de modelado previo. Y, en segundo lugar, permite la posibilidad de generar datos de entrenamiento de manera casi ilimitada. El modelo todavía no está disponible, pero en base a los resultados que obtiene, SceneScript nos demuestra el gran potencial de los datos sintéticos para entrenar modelos de inteligencia artificial y transferir el aprendizaje a situaciones del mundo real.
Más info: https://www.projectaria.com/scenescript/
Gracias por leer Explicable. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda gustar.
💥Pero atención…💥
Si no recibieses Explicable directamente en tu correo, revisa bien tu correo no deseado. A veces ocurre que nuestros mensajes se van directamente a ese agujero negro denominado “spam”.
Para evitar que esto ocurra, marca nuestra dirección de correo como “no es spam”.
Si eres usuario de Gmail, revisa también la carpeta de “promociones”, porque puede que también nos hayamos escondido allí y mueve el mensaje al inbox principal. GRACIAS.