GPT-4: ¿momento histórico?
Noticias recientes de Inteligencia Artificial que importan a los negocios
En tan solo dos semanas, el panorama de la Inteligencia Artificial ha dado un giro espectacular tras la aparición de GPT-4. Y no es solamente porque este modelo funcione significativamente mejor que su antecesor en tareas de comprensión y razonamiento. A pesar de la notable mejora, GPT-4 hereda las mismas limitaciones de todos los LLMs (Large Language Models). Lo que llama la atención es el potente ecosistema que Open AI está creando a su alrededor, que cambia radicalmente las posibilidades de estos modelos como veremos a continuación. No estamos hablando de AGI (Artificial General Intelligence) o de una inteligencia a la par con la humana. De lo que estamos siendo testigos es de un avance sin precedentes, que permitirá la automatización de tareas cognitivas a un coste irrisorio. Algo que supondrá un enorme impacto en la economía y en la organización de nuestra sociedad. Vamos a repasar en orden cronológico lo que ha ocurrido en marzo de 2023 para entender la trascendencia de los acontecimientos.
🚀 Si quieres formarte en IA, este es tu momento. Acabamos de lanzar la 6ª edición de nuestro Máster Ejecutivo en Inteligencia Artificial, una formación práctica diseñada por y para profesionales. 100% online, sin requisitos técnicos y en castellano. Y si, además, eres lector de Explicable, te ofrecemos un descuento adicional al precio promocional de lanzamiento. Utiliza: EXPLICABLE300
Ya tenemos a GPT-4 y sigue mejorando
Eran muchos los rumores que había en torno a la llegada de GPT-4 para 2023. Algunos de ellos han resultado ser totalmente falsos. La realidad es que el modelo estaba ya listo en el verano de 2022, y que Open AI se ha tomado su tiempo para evaluar sus prestaciones y sus posibles impactos antes de liberarlo. A tenor de los resultados de esta evaluación que han publicado a través de un informe técnico, GPT-4 es una mejora sustancial con respecto a su antecesor. Lo que más ha llamado la atención de los resultados es la capacidad para superar exámenes avanzados de física, matemáticas, derecho y muchas otras disciplinas, puntuando en algunas de ellas en el percentil 90. Curiosamente, no mejora los exámenes de lengua inglesa y de literatura, donde el uso del lenguaje es precisamente lo que se está evaluando, y no tanto los conocimientos. A pesar de lo llamativo, estas pruebas no son una buena medida de la capacidad de generalización de estos modelos, porque están pensados para humanos a los que ya se les presupone dicha capacidad.
Además, existe la posibilidad de que el modelo haya memorizado las respuestas, dada la cantidad ingente de texto que ha podido analizar durante su entrenamiento.
Quizá lo más interesante de la evaluación es la notable mejora en las capacidades de razonamiento, algo que genera un debate muy interesante en la comunidad científica sobre si este tipo de modelos razonan o memorizan razonamientos.
A través del interfaz de ChatGPT, podemos comprobar, tras muy pocas interacciones, que la mejora de GPT-4 con respecto a GPT-3.5 es patente: mejor comprensión del contexto y mayor exactitud en las respuestas. Asimismo, se observa una velocidad de generación de respuestas mucho menor que la de su predecesor, lo cual apunta a que el nuevo modelo requiere más carga computacional y por tanto tiene un tamaño muy superior. Esto es muy relevante porque confirma el cumplimiento de las leyes de escalado que se propusieron en el artículo científico de Chinchilla. Es decir, aumentando el número de parámetros podemos seguir mejorando las prestaciones del modelo si entrenamos con más datos, una señal que indica que todavía no hemos tocado techo en cuanto a las capacidades de estos sistemas. Pero además del tamaño, GPT-4 incluye dos características muy novedosas que todavía no están accesibles al público general. Por un lado, en una de sus versiones ofrece un contexto de hasta 32.000 tokens, algo nunca visto anteriormente y que permite que el modelo pueda recordar hasta unas 50 páginas de texto previo para producir sus respuestas. Y por otro lado, puede utilizar imágenes dentro de ese contexto para enriquecer la conversación y permitir la consecución de nuevas tareas con apoyo visual.
Una consecuencia importante de esta publicación es que marca el fin de la investigación abierta en IA dentro de las grandes empresas tecnológicas, artífice del ritmo acelerado con el que ha avanzado este campo en la última década. A partir de ahora, y debido al panorama de alta competitividad en el que nos encontramos, OpenAI cambia las reglas del juego no publicando detalles técnicos fundamentales para reproducir este trabajo. Entre ellos, destacan la arquitectura del modelo (incluyendo el número de parámetros), el modo de entrenamiento o el que podría ser el más sobresaliente de todos: cómo han logrado un contexto de 32.000 tokens sin multiplicar el coste computacional por 16 (una cifra que sería la esperada para cualquier otro LLM de estas características). En los créditos del informe técnico que han publicado aparece un equipo especializado en “contexto largo”, un indicio de que podrían haber descubierto algo diferenciador en este ámbito. Para hacernos una idea del impacto que puede suponer cerrar este tipo de investigaciones, pensemos en que si Google hubiera actuado de la misma manera no dispondríamos de la arquitectura Transformer que ha sido una pieza fundamental en el éxito de OpenAI y en la aparición de los modelos de fundación.
Microsoft ya define el futuro del trabajo
Satya Nadella, CEO de Microsoft, podría haber hecho la mejor inversión de la historia cuando en 2019 invirtió nada menos que 1.000 millones de dólares en OpenAI. Por aquel entonces, OpenAI pasaba de ser una organización sin ánimo de lucro a una con lucro limitado. Sam Altman, CEO de OpenAI, anunció que el objetivo era la AGI y que, una vez lo lograran, devolverían lo invertido multiplicado por 100. El resto de las ganancias sería para cumplir la misión original de la compañía de desarrollar una IA en beneficio de la humanidad. Muchas personalidades ilustres del mundo de la IA se burlaron de estas afirmaciones, al considerar que estaban vendiendo humo. Hoy la burla se ha tornado en una petición de pausa para pensar bien los peligros de los productos con los que OpenAI lidera el mercado de la IA generativa.
Tras la integración de GPT-4 con el buscador Bing, Microsoft sigue rentabilizando esta inversión integrándolo ahora en la popular suite de Office 365, llamando al producto Microsoft 365 Copilot.
En cualquiera de sus conocidas herramientas podremos abrir un interfaz de texto para pedir lo que queramos: que haga un análisis DAFO a partir de un documento, que cree una presentación con unas simples instrucciones, o que genere nuevas tablas de agregaciones en una hoja de cálculo.
Copilot actúa utilizando GPT-4 y un grafo de conocimiento que se crea a partir de todos los documentos y datos del usuario. Esto permite que las respuestas de GPT-4 estén contextualizadas al puesto de trabajo en cuestión, evitando así una de las limitaciones todavía presentes en este tipo de modelos: la veracidad de la información generada.
El acceso exclusivo a la tecnología de OpenAI, sin duda, ha posibilitado que la integración haya ocurrido tan rápidamente. Las únicas dudas que genera el uso de este producto en el entorno corporativo son las relativas a la confidencialidad de los datos que se encuentran en ese grafo de conocimiento. Una parte de esos datos formarán parte del prompt de GPT-4; y no olvidemos que las políticas de seguridad de las empresas suelen ser muy estrictas en el envío de datos confidenciales fuera de su red. Copilot está pensado para aumentar la productividad y mejorar la calidad de los documentos producidos por los usuarios; no tenerlo supondrá una desventaja competitiva importante. Así que parece lógico pensar que será el propio mercado el que encuentre la solución a este tipo de problemas.
Google va un paso por detrás
Hace un año nadie podía haber imaginado que una empresa como OpenAI, con un equipo de unas 300 personas, pudiera desafiar a Google y amenazar su principal modelo de negocio. Para ponerlo en contexto, Google cuenta con un total de 140.000 empleados, de los cuales más de 3.000 trabajan en Google Brain, su departamento de investigación dedicado a la IA. Además, Google es la propietaria de Deepmind, otro prestigioso centro de investigación en IA ubicado en Reino Unido y que cuenta con unos 700 empleados. Y no es que Google haya estado parado por no anticipar el verdadero potencial de la IA.
Por el contrario, los artículos científicos que publican regularmente han sido muy relevantes para el progreso de toda la disciplina. Sin embargo, parece que un peso excesivo en la investigación les ha hecho dormirse en los laureles, perdiendo la batalla de lanzar productos al mercado.
Bard es el ChatGPT de Google, anunciado en febrero para contrarrestar el anuncio de Bing Chat. Tras meses de pruebas internas, Google acaba de abrir su acceso a un grupo limitado de personas, y solo en inglés, algo que llama la atención siendo la familia de modelos GPT multiidioma desde sus orígenes. Sin valorar este punto, las comparaciones que se han hecho de Bard contra GPT-4 inclinan la balanza a favor de este último. Especialmente en lo que se refiere a la generación de código para resolver problemas de computación. Esto nos hace pensar si el acceso de OpenAI al repositorio de código abierto de GitHub (a través de su alianza con Microsoft) puede estar detrás del éxito de GPT-4. No sólo para generar código, sino también para mejorar la generación de lenguaje natural. No es la primera vez que se apunta en esta dirección como podemos ver en este artículo sobre la evolución de los LLMs de OpenAI.
El papel de Google es fundamental en este momento que estamos viviendo, para hacer de contrapeso al tándem Microsoft-OpenAI. Está en un buen punto de partida atendiendo a la calidad de sus publicaciones. Sólo necesita encontrar el modo de convertir sus avances en productos, participando de una sana competencia que solo puede ir en beneficio de todos.
ChatGPT plugins, la pieza que faltaba
Ya hablamos en febrero sobre cómo sortear las limitaciones de ChatGPT, o bien especializándolo en un dominio concreto, o bien añadiéndole una base de conocimiento que nutra las respuestas con información precisa. Para el primer caso, surgen empresas como Harvey, nacida de OpenAI, que especializa GPT-4 en el campo del Derecho. Y, para el segundo caso, OpenAI acaba de anunciar ChatGPT plugins: la pieza que faltaba para multiplicar los casos de uso que se pueden atacar con esta herramienta, más allá de lo que hoy podemos imaginar. Es una especie de App Store para ChatGPT, con la diferencia de que los plugins se pueden encadenar y utilizarlos, o no, según el contexto de la conversación.
Esto acelera el cambio de la interacción humano-máquina con el uso de lenguaje natural, y permite la automatización de un gran número de tareas cognitivas a un coste ínfimo.
Veamos a través de algunos ejemplos la magnitud del cambio de paradigma que se nos presenta. OpenAI ha creado tres plugins que todos tendremos cuando nos den acceso. El primero, mejora ChatGPT accediendo a Internet para encontrar información relevante al contexto, algo que ya habíamos visto a través de Bing Chat y que permite mantener a ChatGPT siempre actualizado. El segundo, permite utilizar un intérprete de código para resolver tareas que requieran realizar operaciones con datos, por ejemplo, para resolver un problema de razonamiento numérico, o para aplicar un filtro a una fotografía. Y el tercero, permite conectar ChatGPT a una base de conocimiento cualquiera, para generar respuestas más precisas adaptadas a la realidad de una empresa o de un grupo de personas. Esto será muy útil para agilizar el proceso de onboarding de empleados, accediendo a toda la documentación de una empresa y permitiendo dialogar con el nuevo empleado para resolver sus dudas. O para la educación, creando sustitutos interactivos de los libros de texto, que, mediante la concatenación de varios plugins, puedan guiar al alumno ofreciendo un aprendizaje más personalizado.
La guinda a este pastel es la posibilidad de que cualquiera pueda crear su propio plugin, para ofrecer servicios dentro de ChatGPT (por ejemplo, para encargar la lista de la compra) o para agilizar cualquier proceso interno de una empresa (por ejemplo, para registrar los gastos de un viaje). Y para rizar el rizo, la forma de conectar un plugin con ChatGPT se hace mediante lenguaje natural, describiendo el tipo de interacciones y las respuestas. Toda una declaración de intenciones para reflejar toda la potencia de este nuevo ecosistema que están construyendo. Es preciso mencionar el papel destacado de Stephen Wolfram, quien a través de su influyente artículo del que ya hablamos en febrero, podría haber propiciado el interés de OpenAI en crear este sistema de plugins. De hecho, el primer plugin de una empresa externa que se ha anunciado ha sido precisamente el de Wolfram Alpha, haciendo realidad la visión de dicho artículo en cuestión de meses. Resulta verdaderamente abrumador vivir en estos tiempos y dedicarse a este campo, donde las ideas se materializan a una velocidad de vértigo.
Gracias por leer Explicable. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda gustar.
💥Pero atención…💥
Si no recibieses Explicable directamente en tu correo, revisa bien tu correo no deseado. A veces ocurre que nuestros mensajes se van directamente a ese agujero negro denominado “spam”.
Para evitar que esto ocurra, marca nuestra dirección de correo como “no es spam”.
Si eres usuario de Gmail, revisa también la carpeta de “promociones”, porque puede que también nos hayamos escondido allí y mueve el mensaje al inbox principal. GRACIAS.
Vivimos tiempos interesantes
Muy buen artículo !!