Siempre que una tecnología disruptiva nos asombra con sus nuevas aplicaciones, caemos en el error de augurar una revolución social y económica sin precedentes, que transformará el mundo de la noche a la mañana. Ciertamente, extrapolando al medio plazo la rapidez de los cambios observados, esta visión de futuro nos parece más que plausible. Esto explica los ciclos de entusiasmo y posterior desilusión que caracterizan a la Inteligencia Artificial. Y no es el propio avance de la tecnología la que dirige estos vaivenes, sino más bien la percepción de una sociedad abrumada por los cambios, y dividida entre los que quieren acelerarlos y los que quieren ponerles freno. Ejemplos de aceleración son los miles de millones de dólares que prácticamente todas las grandes tecnológicas están invirtiendo en centros de datos con decenas de miles de GPUs para entrenar los modelos de última generación, y con un ganador claro: Nvidia, que se ha colocado entre las empresas más capitalizadas del mundo. Y ejemplos de freno son todas las llamadas a regular la Inteligencia Artificial de forma preventiva, es decir, antes de ni siquiera conocer la naturaleza de los peligros ante los que nos enfrentamos, bien por miedo o por intereses económicos. La realidad es que los cambios necesitan su tiempo; y es la sociedad la que marca el ritmo de adopción de la tecnología y no al revés. A pesar de ello, el inexorable avance de la Inteligencia Artificial sigue su curso ajeno a todos estos ciclos. Y es que el potencial de las redes neuronales no ha tocado techo: solo está limitado por la falta de imaginación de algunas personas, entre las que en ocasiones también me incluyo.
🚀 Si quieres formarte en IA, este es tu momento. La 7ª edición de nuestro Máster Ejecutivo en Inteligencia Artificial arranca el 5 de octubre: práctica, 100% online, sin requisitos técnicos y en castellano. Y si, además, eres lector de Explicable, te ofrecemos un descuento. Utiliza: EXPLICABLE300
OpenAI se adelanta otra vez
Es impresionante observar hasta dónde se ha llegado con la arquitectura Transformer, entrenada para predecir la siguiente palabra de un texto. Es una simplificación de cómo se entrenan los grandes modelos de lenguaje (LLMs), pero revela algo que nadie se esperaba: el lenguaje de programación más efectivo en la era de la Inteligencia Artificial es el lenguaje natural. Y no nos referimos al inglés, idioma predominante en Internet con el que mayoritariamente se entrenan estos modelos. Sino a los conceptos generales del mundo que cualquier idioma captura y que los LLMs han de comprender y asimilar para cumplir sus objetivos. Esto les permite no solo resolver problemas relacionados con el lenguaje, sino también integrar estos conceptos con imágenes, sonidos y cualquier otra fuente de información. Por tanto, denominarlos modelos de lenguaje minimiza su verdadero potencial como máquinas universales de computación que, gradualmente, van ampliando el espectro de problemas que pueden resolver. Así lo demuestra el lanzamiento de o1, el primer modelo de OpenAI especializado en tareas de razonamiento.
Todos los LLMs anteriores a o1, como GPT-4 o Claude 3.5, están entrenados para predecir en cada momento la palabra más probable, en función de todo el contexto previo y de una inmensa cantidad de texto extraído de Internet. Posteriormente, se les aplica un entrenamiento específico para ajustar dichas probabilidades según la valoración humana. Esto produce LLMs muy valiosos para automatizar tareas de generación y extracción de texto en prácticamente cualquier idioma. Sin embargo, cuando se trata de aplicar razonamiento ante una petición, los resultados suelen ser insatisfactorios en la mayoría de los casos.
Si parece que GPT-4 razona es porque ha memorizado una infinidad de problemas, más o menos populares, que se encuentran en distintos sitios web. Por el contrario, el nuevo modelo o1 está entrenado bajo un nuevo paradigma basado en la resolución de problemas.
Aunque no tenemos información precisa del funcionamiento interno de o1, intuimos que, además de recibir asistencia humana para elegir las respuestas más adecuadas, este nuevo modelo intenta deducir por sí mismo, y paso a paso, los razonamientos que lo conducen a las respuestas correctas de un conjunto de problemas. De manera similar a cómo AlphaGo se entrenó jugando partidas de Go contra sí mismo y descubrió estrategias ganadoras desconocidas hasta el momento, podríamos inferir que o1 también encuentra una serie de procesos lógicos aplicables de forma genérica a múltiples problemas. Aquí es donde se aprecia un salto significativo en la capacidad de razonamiento respecto a modelos anteriores, aunque siga aún muy lejos del razonamiento humano. Sin embargo, el modelo parece tener un peor desempeño frente a sus predecesores en tareas más creativas, aquellas donde la alucinación suma y la lógica resta.
Otra característica distintiva de este modelo es el mayor tiempo que requiere para proporcionar una respuesta, el cual varía según la complejidad del problema y no por el número de palabras (o tokens) presentes, como estábamos acostumbrados. Esto se debe a que la mayor parte del contenido generado por el modelo permanece oculto para nosotros, de modo que solo vemos la respuesta final y no los tokens que conforman toda la cadena de razonamientos. Es una pena que OpenAI haya decidido ocultar estos tokens para proteger su propiedad intelectual. Por un lado, la visibilidad de los procesos de razonamiento permitiría la explicabilidad de las respuestas del modelo, una de las grandes limitaciones que se atribuyen a las redes neuronales. Por otro lado, esto impide la total transparencia y dificulta la estimación precisa del coste del modelo cuando se integra en otras aplicaciones mediante una API, ya que la mayoría de los tokens por los que se paga se quedan en los servidores de OpenAI.
Hay que tener en cuenta que OpenAI ha publicado “o1-preview”, que no es la versión final del modelo o1, cuyos resultados de evaluación son todavía superiores. Uno de los motivos podría ser su mayor gasto computacional, que con los costes actuales no justificaría el extra de valor aportado. En definitiva, lo más importante del lanzamiento de o1 es que se abre una nueva avenida por donde estos modelos pueden seguir evolucionando, y que a buen seguro provocará la reacción inmediata de Google, Anthropic y Meta. Y no podemos olvidar en este punto a la empresa SSI (Safe Superintelligence Inc.) fundada por Ilya Sutskever, uno de los genios detrás de hitos como AlexNet, ChatGPT y, probablemente, también o1, antes de que se marchara de OpenAI en mayo de 2024, organización que fundó en 2015 junto con Sam Altman y otros grandes nombres de la industria.
¿Y ahora qué?
Si hace cinco años nos hubieran dicho que hoy tendríamos modelos capaces de generar prácticamente cualquier imagen que deseemos, que la comprensión del lenguaje natural estaría resuelta para muchas tareas y en diversos idiomas, que la generación automática de música habría superado la simple música de ascensor, y que los desarrolladores de software completarían sus tareas un 50% más rápido gracias a la inteligencia artificial, habríamos pensado que estábamos en el terreno de la ciencia ficción.
Nos hemos acostumbrado muy rápidamente a tener aplicaciones como ChatGPT entre nosotros, sin darnos cuenta del increíble avance que esto representa. En este punto, nos aventuraremos a analizar dónde se encuentran los siguientes retos de la Inteligencia Artificial en los próximos cinco años.
Como hemos analizado en esta edición de Explicable, entramos en una nueva etapa con la aparición de modelos que poseen capacidades, aún limitadas, de razonamiento. Este avance es un paso indispensable para permitir el desarrollo de agentes: modelos capaces de actuar de forma autónoma en el mundo virtual en respuesta a nuestras órdenes. El impacto económico de estos agentes desplegados en múltiples dominios podría ser inmenso. En este contexto, también será interesante observar el tiempo que la comunidad de código abierto tardará en desarrollar estas nuevas capacidades.
En el ámbito audiovisual, el siguiente paso es la edición y generación de vídeo con fines profesionales, yendo más allá de los propósitos lúdicos que observamos en la actualidad. El vídeo requiere una capacidad de cómputo mucho mayor, además de enfrentar desafíos relacionados con los derechos de autor de los principales repositorios de vídeo como YouTube. Esto ha hecho que el progreso que hemos visto con las imágenes sea más lento en el caso del vídeo, aunque no tenemos la menor duda de que ese avance llegará.
Por último, es fundamental no subestimar las aplicaciones de los LLMs en el campo de la robótica, que podrían permitir la creación de agentes capaces de moverse y actuar de manera autónoma en el mundo físico. La robótica representa una revolución silenciosa que progresa discretamente cada año, y que aún no ha alcanzado ese punto de inflexión a partir del cual el ritmo de progreso se acelera. Las capacidades de razonamiento de estos nuevos modelos podrían desencadenar ese punto de inflexión, formando el sustrato que permitirá a los robots planificar sus propias acciones para llevar a cabo tareas cada vez más complejas y de carácter más general.
Gracias por leer Explicable. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda gustar.
💥Pero atención…💥
Si no recibieses Explicable directamente en tu correo, revisa bien tu correo no deseado. A veces ocurre que nuestros mensajes se van directamente a ese agujero negro denominado “spam”.
Para evitar que esto ocurra, marca nuestra dirección de correo como “no es spam”.
Si eres usuario de Gmail, revisa también la carpeta de “promociones”, porque puede que también nos hayamos escondido allí y mueve el mensaje al inbox principal. GRACIAS.
Súper interesante todo lo que apuntas. A propósito, ¿has visto la película española JusticIA Artificial que se estrenó este septiembre? https://www.simoncasal.es/justicia-artificial-cine Ciertamente, estoy totalmente de acuerdo en el freno que supone el EU AI Act y todas la llamadas a regular la Inteligencia Artificial de forma preventiva, como bien dices, antes de ni siquiera conocer la naturaleza de los peligros ante los que nos enfrentamos. Y los medios y el cine están empreñados en meter más miedo al público para poner una cortina de humo sobre los intereses económicos tras esa regulación...