Y ahora, el turno del Open Source
Análisis de la actualidad en IA que más importa a los negocios
El movimiento Open Source (OS) se cimentó a final de los 90 como una nueva forma de hacer software, en la cual el código que escribían los programadores se hacía público para que cualquiera pudiera utilizarlo, y mejorarlo en beneficio de todos. Inicialmente predominaban las licencias de uso tipo GPL (General Public License), que estaban pensadas para impedir que este código pudiera acabar dentro de un software propietario. Con el tiempo, aparecieron licencias menos restrictivas que permitían prácticamente cualquier uso de ese código. La revolución tecnológica que hemos experimentado a comienzos de este siglo no se entiende sin el OS, que ha democratizado el desarrollo de software. Y en contra de lo que se podría anticipar, compartir el esfuerzo personal de miles de programadores ha logrado beneficiar a toda la industria por igual; desde las grandes empresas tecnológicas que lo han alimentado sin complejos, hasta las pequeñas startups que han podido competir con menos recursos financieros. En el caso del Software 2.0, o el software basado en Inteligencia Artificial, es necesario definir qué consideramos abierto y disponible para su uso compartido. Por un lado, tenemos el código que sirve para entrenar y ejecutar modelos de IA en producción, que sigue sujeto a las mismas pautas del OS tradicional. Pero siguiendo la filosofía del OS, el Software 2.0 debería también compartir los pesos del modelo y los datos de entrenamiento, algo que no siempre ocurre. En el mercado de la IA generativa se está librando una guerra entre empresas con modelos propietarios a la que se empiezan a sumar los modelos OS. ¿Conseguirá el movimiento OS también democratizar la IA y generar un impacto económico de la misma magnitud?
Todo lo que está pasando, un marco regulatorio cambiante, una tecnología omnipresente en prácticamente todos los sectores de la economía y un disruptor indiscutible en las estrategias de crecimiento de las organizaciones. La misión del Instituto de Inteligencia Artificial sigue intacta: ayudamos a profesionales a conocer el potencial de la IA y cómo aplicarla de manera eficaz y rentable. Y ahora con mucho más sentido: apostamos por dotar a perfiles profesionales de conocimientos, inspiración, rigor y herramientas para navegar este tsunami. Consulta todo nuestro portfolio formativo aquí.
Falcon sube el listón
En anteriores Explicables hemos hablado de cómo Meta, en su lucha por hacerse un hueco entre los grandes centros de IA, ha apostado por la publicación de sus modelos en formato open source. El modelo estrella de Meta es, sin duda, Llama 2, que permite construir aplicaciones de procesamiento de lenguaje natural sin depender de los altos costes de GPT-4, la versión más potente de ChatGPT. Y entonces el pasado mes de junio aparece Falcon, otro de esos modelos que pugna por conquistar el terreno de ChatGPT, desarrollado por el centro de investigación TII (Technology Innovation Institute). Esta circunstancia resulta sorprendente teniendo en cuenta que el TII es un organismo público, generalmente poco preparado para innovar. Y también sorprende que está ubicado nada menos que en Emiratos Árabes Unidos, un lugar que, hasta ahora, no entraba en el bloque China-EE.UU. que encabeza la carrera por la supremacía en Inteligencia Artificial.
El gran inconveniente de Llama 2, y por ende sus numerosos sucesores, es que fuera del idioma inglés su desempeño deja mucho que desear.
Una de las grandes sorpresas de ChatGPT fue su habilidad para comprender y responder en múltiples idiomas a pesar de que más del 90% de sus datos de entrenamiento estaban en inglés.
Los mismos ingenieros de OpenAI se mostraron atónitos ante este fenómeno, probablemente a sabiendas de que ese pequeño porcentaje en otros idiomas se había colado en los datos de manera accidental. Un dulce accidente que ha contribuido a democratizar aún más los LLMs a escala mundial.
Falcon, al contrario de Llama 2, sí que se ha entrenado con un conjunto de datos que contiene una contribución mayor de otros idiomas. Las pruebas que hemos hecho en español nos lo confirman. Y para poner la guinda al pastel, TII acaba de anunciar la disponibilidad de una versión de 180 mil millones de parámetros (Falcon 180B) que es por ahora el modelo open source que más se acerca a GPT-4 en las pruebas estándar de evaluación MMLU (Massive Multitask Language Understanding).
Este modelo, con un tamaño similar a GPT-3 y más del doble del tamaño de Llama 2, se puede descargar libremente tanto para fines comerciales (con alguna restricción razonable) como para fines de investigación. Aunque eso sí, para poder utilizarlo necesitaremos una infraestructura con un coste que oscila entre los 10-20€ por hora si la alquilamos; y del orden de 200.000€, si la adquirimos en propiedad. Si no queremos hacer frente a estos costes, también podemos acceder a una versión especial con menor precisión matemática, bajando los costes a la mitad y sin apenas pérdida de desempeño. Esto último siempre atendiendo a las citadas pruebas estándar de evaluación de modelos de lenguaje, que solo nos sirven de orientación. Porque para conocer el verdadero potencial de un LLM en nuestro caso de negocio concreto, no hay más remedio que probarlo y medir los resultados en un entorno real.
Más info: https://falconllm.tii.ae
Gemini la esperanza de Google
Antes de la irrupción de ChatGPT, parecía obvio que Google estaba a la par con OpenAI en investigación aplicada de modelos de fundación. Esta conclusión se basaba en los resultados que aparecían en la infinidad de artículos académicos que publicaban.
La excusa para no abrir los modelos al público y exhibir su verdadero potencial era que preferían actuar con prudencia, para garantizar que estos modelos cumplían con los estándares de ética antes de sacarlos al mercado. Cuando OpenAI lanzó ChatGPT, Google no tuvo más remedio que cambiar su estrategia y acelerar el despliegue de estos modelos que tanto valor empezaban a crear. Entonces, el modelo estrella de Google era PaLM, con un tamaño 3 veces superior a GPT-3 (el modelo detrás de la primera versión de ChatGPT) y que prometía tener un mejor desempeño. Google Bard fue el primer producto dirigido a competir directamente con ChatGPT, pero su despliegue tardío no ha generado la misma atención que ChatGPT, que entretanto se ha actualizado con GPT-4 y no tiene rival en estos momentos.
Antes incluso de la aparición de ChatGPT, una de las críticas a Deepmind (la filial de Google especializada en IA) era su bajo retorno de la inversión, a pesar de sus grandes logros en el campo de la Inteligencia Artificial (por ejemplo AlphaGo). Así que, fruto de este obligado cambio estratégico, Google pone el foco en su proceso de ingeniería para rentabilizar sus excelentes contribuciones en el ámbito científico.
En este escenario nace el proyecto Gemini, que es un modelo de fundación capaz de procesar y generar texto, audio, imágenes, y quizás también vídeo. Desde el principio, estará diseñado para ser algo más que el modelo que alimenta a Google Bard, de manera que será el cerebro de todas las herramientas que ofrece Google a sus usuarios.
Según las últimas especulaciones, el gasto en computación requerido para entrenar Gemini sería 5 veces superior al de GPT-4, la joya de OpenAI.
Hay que tener en cuenta que Google tienen dos ventajas frente a OpenAI que son cruciales para poder superarlo. En primer lugar, cuenta con su propio hardware de entrenamiento llamado TPU (Tensor Processing Unit), por lo que no depende de Nvidia para aumentar su capacidad de cómputo. Y en segundo lugar, es dueño de la mayor fuente de información que existe en el planeta: Youtube. Así que tampoco depende de terceros para aumentar la cantidad de datos de entrenamiento. El lanzamiento parece inminente, así que pronto sabremos si la posición hegemónica de OpenAI empieza a tambalearse.
Detección de IA generativa
¿Se puede saber si una imagen ha sido generada por IA? Desde la explosión de la IA en el año 2022, la calidad de las imágenes generadas empieza a ser indistinguible de las creadas con una cámara de fotos. Y al igual que hacemos en un restaurante para saber si el postre es casero o industrial, muchas personas sienten la necesidad de conocer el origen de las imágenes que inundan Internet. La solución consiste en añadir una marca de agua que cumpla con dos características: que sea imperceptible al ojo humano y que no se pueda eliminar fácilmente. Esto es lo que acaba de anunciar el equipo de Google Deepmind, un sistema llamado SynthID que pretenden convertir en el nuevo estándar de marca de agua para imágenes generadas por IA.
El principal uso es evitar la propagación de deepfakes como si fueran imágenes reales. Aunque para ese caso, una tecnología así puede resultar totalmente ineficaz. Por un lado aparecerá un incentivo para eliminar la marca de agua haciendo transformaciones sobre la imagen, con una probabilidad de éxito muy alta. Y por otro lado, entrenar un modelo generativo de imágenes hoy está al alcance de cualquiera.
Proteger únicamente los modelos generativos más populares con marcas de agua podría tener un efecto contrario al provocar una confianza engañosa.
En este caso, podría tener más sentido firmar digitalmente las imágenes producidas por las cámaras de fotos y de vídeos para poder certificar su autenticidad. Los problemas provocados por los deepfakes, como la difamación o la desinformación, se podrían abordar con una regulación que castigue los usos perniciosos y obligue a incorporar esta firma digital a los dispositivos de grabación. Aunque todo ello requiere también de un cambio en la mentalidad de la sociedad, que propicie que, por defecto, desconfiemos de las imágenes que no provienen de una fuente fiable.
Más info: https://www.deepmind.com/synthid
Profes, ChatGPT no es vuestro enemigo
La aparición de ChatGPT ha creado un cisma en la comunidad educativa. Unos consideran que se debería prohibir su uso a los alumnos y otros lo abrazan como una potente herramienta que despierte el interés de los alumnos por el aprendizaje. Para todos ellos, OpenAI ha publicado una guía con ejemplos de cómo pueden utilizar ChatGPT en el aula.
Si atendemos a las gráficas de usuarios de ChatGPT, podemos observar un acusado descenso una vez han comenzado las vacaciones estivales. Así que, no es extraño que algunos profesores se posicionen en contra, pues todo su método de aprendizaje se basa en tareas que hasta ahora sólo podían hacer los humanos. Por ejemplo, si como profesor pedimos a nuestros alumnos que hagan una redacción sobre los sumerios, el mínimo nivel exigible debería estar por encima de lo que es capaz de hacer ChatGPT. Y esto, irremediablemente, cambia las reglas del juego en el aula para siempre.
Al igual que hemos visto con la generación de imágenes, podríamos pensar en introducir una marca de agua para detectar si el alumno ha hecho trampas. Pero para los textos generados por IA, diseñar una marca de agua que no se pueda eliminar resulta una tarea prácticamente imposible, tal y como reconoce OpenAI en su apartado de preguntas y respuestas que acompaña a la guía.
Así que los profesores que habitualmente evalúan a los alumnos con trabajos de escritura, deberán ser más exquisitos en las correcciones buscando esas pequeñas inconsistencias que delaten que el trabajo no es original.
Porque de lo contrario estaríamos abocados a eliminar del sistema educativo la ardua tarea de escribir, un aspecto fundamental en el desarrollo del pensamiento.
Más info: https://openai.com/blog/teaching-with-ai
Gracias por leer Explicable. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda gustar.
💥Pero atención…💥
Si no recibieses Explicable directamente en tu correo, revisa bien tu correo no deseado. A veces ocurre que nuestros mensajes se van directamente a ese agujero negro denominado “spam”.
Para evitar que esto ocurra, marca nuestra dirección de correo como “no es spam”.
Si eres usuario de Gmail, revisa también la carpeta de “promociones”, porque puede que también nos hayamos escondido allí y mueve el mensaje al inbox principal. GRACIAS.
Si, lo compartiré, pero cómo debo hacer la promoción, puedo usar el nombre IIA?, estoy autorizado?, puedo usar algunas imágenes de IIA?, puedo emplear la IA para dar a conocer IIA?, desearía más detalles acerca de los limitantes a los que debo atenerme, y bueno, eso es todo por ahora, y que tengan todo el equipo un espectacular dIA!!
Genial la reflexión sobre SynthID y alternativas para identificar el deepfake