Como ya apuntamos en el anterior Explicable, la aparición de GPT-4 ha puesto fin a la era de la investigación en IA 100% abierta de la última década. La creciente competencia entre los grandes del sector está contribuyendo a que muchos avances que antes eran compartidos de inmediato, pasen a formar parte de la propiedad intelectual de las empresas. Algo perfectamente lícito, pero que podría provocar un freno en el actual ritmo de crecimiento. Afortunadamente, estos movimientos han originado una facción de investigadores que sigue apostando por una IA abierta y que se opone a que el control de esta tecnología quede en muy pocas manos. En esta facción tenemos, por un lado, el esfuerzo de Stability AI, que aboga por la publicación sin restricciones de los datos y de los pesos de los grandes modelos. Y también se podría sumar Meta, que ha bajado los decibelios de su apuesta por el Metaverso y ha puesto el foco en la IA generativa, publicando modelos sobre los que se pueden construir aplicaciones de un gran valor comercial. Google, que hasta el momento ha adoptado una postura de compartir todos sus avances científicos en IA y ninguno de sus modelos, todavía no se ha posicionado en este nuevo escenario post GPT-4 donde ya tenemos a un claro ganador del que nadie habla.
Atención: este artículo está escrito por ChatGPT al 0%. Cada palabra está escogida para ofrecer un contenido riguroso y valioso para el lector. Ese siempre ha sido el objetivo de Explicable, ahorrar tiempo en un mundo con exceso de información. ¡Gracias de corazón a todos los que apoyáis este proyecto!
🚀 Si quieres formarte en IA, este es tu momento. La matriculación para la 6ª edición de nuestro Máster Ejecutivo en Inteligencia Artificial ya está en marcha, con un número de plazas limitadas. Una formación práctica diseñada por y para profesionales. 100% online, sin requisitos técnicos y en castellano. Y si, además, eres lector de Explicable, te ofrecemos un descuento adicional al precio promocional de lanzamiento. Utiliza el cupón: EXPLICABLE300
Meta se convierte en el mejor aliado
Meta es una de las empresas más castigadas por la opinión pública debido a sus errores del pasado (véase el escándalo con Cambridge Analytica). En los últimos años, Meta ha sido la diana de todas las críticas hacia las redes sociales, a pesar de que hoy en día Youtube o Tiktok tienen mucho más impacto que Facebook o Instagram. Esta mala fama ensombrece la gran labor que, desde hace mucho tiempo, están realizando en el campo de la IA. Bajo el liderazgo de Yann Lecun, considerado uno de los padres de la IA moderna, son innumerables las publicaciones que han contribuido al avance del reconocimiento del habla, la visión artificial, el procesamiento de lenguaje natural y hasta el aprendizaje por refuerzo.
La filosofía de publicación de Meta es la de compartir la investigación científica y proporcionar los pesos de los grandes modelos exclusivamente para fines de investigación. Pero tras presenciar los efectos en cadena de sus últimas creaciones, parece que Meta está virando hacia una filosofía más cercana a la de Stability AI.
Todo empezó tras la publicación de LLaMA en febrero, un modelo de lenguaje que supera a GPT-3, a pesar de su menor tamaño, siguiendo los postulados de Chinchilla. Esto lo convierte en un modelo ideal para entornos de bajo presupuesto en computación, es decir, cualquiera que no sea una gran tecnológica. Sin embargo, una filtración del modelo ha ocasionado la mayor revolución de la comunidad open source en modelos de lenguaje que hemos visto hasta el momento. En primer lugar, la universidad de Stanford creó Alpaca, un modelo basado en LLaMA y ajustado con las respuestas de ChatGPT (de una legalidad cuestionable). Y, posteriormente, fue la comunidad open source la que, haciendo gala de su ingenio lanza Vicuna, que mejora los resultados de Alpaca. La forma de lograrlo fue utilizando los datos de la web ShareGPT que almacena conversaciones de ChatGPT compartidas por sus usuarios.
Y el segundo ejemplo reciente de las contribuciones de Meta lo tenemos en SAM (Segment Anything Model), que es un modelo capaz de trocear cualquier imagen en sus partes más relevantes, conocido como segmentación. Como todo modelo de base, está diseñado para recibir un contexto que guíe el proceso de segmentación, como un texto que indique qué objetos segmentar, o un píxel de la imagen a partir del cual obtenemos la máscara del objeto del que forma parte. SAM ha sido entrenado con unos 11 millones de imágenes con una técnica de entrenamiento que emplea feedback humano durante el proceso. Esta técnica se está popularizando desde la aparición de ChatGPT, siendo responsable de su éxito fulgurante.
El resultado es un modelo de base capaz de entender cualquier escena, lo cual lo hace idóneo para aplicaciones de visión artificial donde no tenemos muchos datos de los objetos que queremos identificar. Para este caso, Meta ha optado por la filosofía de Stability AI, publicando el código fuente, los datos de entrenamiento y los pesos del modelo con una licencia sin restricciones de uso. No sabemos si este cambio es puntual o responde a su nueva estrategia para contraatacar al poderoso tándem Microsoft-OpenAI. En cualquier caso, es muy positivo para el campo de la IA que Meta siga empujando la investigación abierta, y ahora también distribuya modelos de base como SAM que se puedan usar para fines comerciales.
Google empieza a rearmarse
Aunque de momento está perdiendo la guerra de la inteligencia artificial, Google en realidad siempre apostó muy fuerte por esta tecnología, especialmente tras la revolución del deep learning. La primera gran apuesta fue la de incorporar en 2013 al equipo de Geoffrey Hinton de la Universidad de Toronto, artífices del famoso “momento Imagenet” que ya es historia de la inteligencia artificial. Y la segunda gran apuesta, fue adquirir la empresa Deepmind, un laboratorio de investigación en Reino Unido de apenas 75 empleados cuya misión era la de lograr la AGI (Artificial General Intelligence) mediante el aprendizaje por refuerzo. El tiempo ha demostrado que los grandes resultados cosechados por esta técnica aplicada a los videojuegos, como AlphaGo o AlphaZero, no se han trasladado con el mismo éxito al mundo físico, donde todo se vuelve más impredecible. Pero en 2014, cuando fue adquirida, se percibía como una apuesta segura a todas luces.
Desde entonces, Deepmind se ha convertido en un laboratorio de referencia a escala mundial, que va más allá del aprendizaje por refuerzo, logrando atraer a las mentes más brillantes del planeta. Deepmind está detrás de grandes logros como Alphafold, un modelo que predice la estructura tridimensional de una proteína a partir de su cadena de aminoácidos, algo esencial para determinar su función. Alphafold supone un hito en el campo de la Biología, proporcionando un avance que se mide en décadas. Y también en el área del procesamiento de lenguaje natural, Deepmind ha contribuido en gran medida con trabajos de la talla de Chinchilla, que se ha convertido en la referencia para entrenar cualquier LLM (Large Language Model) en la actualidad.
Sin embargo, en la era post-ChatGPT Google parece estancado y sin el rodaje necesario para sacar al mercado productos de IA que hagan frente a la alianza entre OpenAI y Microsoft.
Google es consciente de su posición de desventaja. Por eso, la primera acción estratégica ha sido la de juntar todos sus departamentos de IA bajo la estructura organizativa de Deepmind, dirigida por uno de sus fundadores Demis Hassabis. Además, también ha comenzado a desplegar Bard, su respuesta a ChatGPT, en más de 180 países entre los cuales no se encuentra ninguno europeo muy probablemente debido a la presión regulatoria. Es la primera vez, y no será la última, que vivir en Europa supone una desventaja para acceder a la IA más avanzada. Las primeras pruebas comparativas hechas por usuarios, colocan a Bard un escalón por debajo de ChatGPT. El hecho de que Bard sea gratuito es un indicativo más que apunta a que Google es consciente de sus limitaciones.
Muchos piden la cabeza de Sundar Pichai, que ha sido un gran CEO en tiempos de paz, pero que tiene que demostrar que también puede ser un buen líder en tiempos de guerra. Por ejemplo, no se entiende que el CEO de Google no estuviera presente en el Senado de EE.UU. junto a Sam Altman, CEO de OpenAI, para dar su punto de vista sobre la necesidad de regular la IA. Sobre todo, teniendo en cuenta que para justificar sus retrasos, Google siempre se escuda en la importancia de hacer un uso responsable de la IA. A pesar de todo, Google no ha dicho su última palabra, tiene los recursos necesarios, tanto humanos como económicos, y un claro objetivo que perseguir. Google no está, pero se le espera.
El arsenal de modelos open source
El movimiento de código abierto, open source en inglés, se está convirtiendo en un importante motor de avance para la IA. Poner esta tecnología en manos de millones de personas de todo el mundo genera un círculo virtuoso de mejora continua que acelera su progreso. LLaMA o ControlNet son ejemplos muy claros de este fenómeno, que parecen ser una réplica de lo ya ocurrido en los años 2000 con la explosión de empresas ofreciendo soluciones SaaS (Software as a Service) y empujadas por la proliferación de aplicaciones y librerías open source.
En el caso del Software 2.0, el concepto de open source puede tener distintas perspectivas según qué componente se decida abrir. Por ejemplo se puede abrir el código fuente para entrenar el modelo, o los datos de entrenamiento, o los pesos del modelo ya entrenado, o una combinación de las tres. El componente más importante de esta tríada es el modelo ya entrenado, ya que requiere de una inversión inicial del orden de millones de dólares que la comunidad open source no puede asumir (solo dispone de recursos humanos y no económicos). Para solventar esta limitación apareció la empresa Stability AI, que financia la infraestructura necesaria para que se entrenen grandes modelos de base en beneficio de toda la comunidad. Gracias a Stability AI disponemos de modelos de generación de imágenes como Stable Diffusion o recientemente DeepFloyd IF, que compiten de tú a tú con sus homólogos de empresas privadas como OpenAI o Google, y con la ventaja de estar disponibles sin restricciones de uso ni previo pago.
Sin embargo, en cuanto a LLMs la situación es bien distinta. Al igual que ocurre con Bard, ninguna de las iniciativas abiertas le puede hacer sombra en estos momentos al todopoderoso GPT-4. Además de LLaMA y sus sucesores, una de estas iniciativas que acaba de nacer es StableLM, que promete ser la familia de modelos que algún día haga frente a OpenAI.
Ante este panorama, la pregunta es: ¿Cuándo podrá un LLM open source estar a la par con GPT-4?
La respuesta depende de si OpenAI ha encontrado algo novedoso en el entrenamiento de estos modelos que impide al resto igualar sus prestaciones. A tenor del interés de OpenAI por ocultar los detalles de GPT-4 y de lo que están tardando el resto en darle caza, esta posibilidad gana enteros. Durante 2023 se dirimirá la batalla de los LLMs, que desvelará si los modelos open source pueden llegar a estar a la altura de los modelos propietarios, tal y como ya ha sucedido con la generación de imágenes.
NVIDIA es antifrágil
Siguiendo con el símil bélico, sabemos que aunque las guerras acaban con vencedores y vencidos, la muerte y la destrucción se sufren en ambos bandos. En un escenario así, también es posible encontrar territorios neutrales que aprovechan su situación estratégica para crecer en un entorno hostil. En la guerra de la IA, el número de GPUs (Graphical Processor Units) disponibles para entrenar y lanzar modelos en producción es crucial para conseguir una posición dominante. Y en el mercado de GPUs, el rey es NVIDIA por méritos propios. No solo durante años ha producido el mejor hardware para entrenar modelos de IA. También ha proporcionado el software necesario para formar un potente ecosistema que explota las virtudes de su hardware al máximo.
Y todo ello aderezado con una estrategia empresarial impecable, que le ha llevado a convertirse en uno de los principales catalizadores de la revolución de la IA sin crearse ningún enemigo por el camino.
Para hacernos una idea de la situación privilegiada en la que se encuentra NVIDIA vamos a arrojar algunos números que hablan por sí solos. Casi todos los LLMs que utilizamos en la actualidad se han entrenado en granjas de servidores con miles de chips de NVIDIA del modelo A100, que tiene un coste aproximado de 10.000 dólares por unidad. Se estima que ChatGPT ha utilizado unos 10.000 chips A100 para su entrenamiento. Los próximos LLMs se entrenarán con su sucesor, el modelo H100 anunciado hace más de un año, con un coste de unos 36.000 dólares por unidad y que promete ser 4 veces más rápido en el entrenamiento de LLMs. La disponibilidad de estos chips son uno de los motivos por el cual muchos expertos han firmado la famosa carta pidiendo parar el desarrollo de la IA para modelos mayores que GPT-4. NVIDIA controla actualmente el 80% del mercado de hardware especializado para inteligencia artificial, a pesar de que empresas como Google desarrollan sus propios chips. Y mientras NVIDIA crece, su competencia directa como AMD o Intel, ni está ni se le espera.
Gracias por leer Explicable. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda gustar.
💥Pero atención…💥
Si no recibieses Explicable directamente en tu correo, revisa bien tu correo no deseado. A veces ocurre que nuestros mensajes se van directamente a ese agujero negro denominado “spam”.
Para evitar que esto ocurra, marca nuestra dirección de correo como “no es spam”.
Si eres usuario de Gmail, revisa también la carpeta de “promociones”, porque puede que también nos hayamos escondido allí y mueve el mensaje al inbox principal. GRACIAS.
Excelente resumen! 👏🏼