Los temas que preocupan: capacidad cognitiva real, costes y control estatal

El debate hoy se centra en la inteligencia real del paradigma actual (LLM), los elevados costes de los agentes y el papel de los Estados.

jun 08, 2026

Alegoría del mito de la caverna de Platón aplicada a los modelos de lenguaje.

¿Qué pasó el fin de semana? En un minuto:

Investigadores apuntan que los LLMs capturan el residuo textual del pensamiento humano, no los mecanismos que lo generan.
El gasto en tokens se convierte en una de las mayores preocupaciones de las empresas con agentes y ya genera startups dedicadas a recortarlo.
Una propuesta de Bernie Sanders plantea que el Gobierno tome el 50% de las empresas de IA; es una consecuencia de alimentar el miedo a la IA desde dentro del ecosistema tecnológico.
Google sigue apostando por la IA en local con nuevos modelos de Gemma 4 QAT optimizados para funcionar en dispositivos móviles.
Publicar los pesos no es lo mismo que publicar un modelo realmente abierto con código fuente y datos de entrenamiento, una categoría que escasea cada vez más.
Meta y NVIDIA se reparten varias distinciones en CVPR 2026 con avances en generación de imágenes y reconstrucción 3D de una imagen.
Nemotron3 Ultra, la apuesta de NVIDIA en código abierto, queda por detrás de modelos chinos abiertos en pruebas de programación.
Un estudio de Stanford mide que dos agentes de programación colaborando rinden casi un 50% peor que uno solo debido a la falta de coordinación.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Y si tienes más de un minuto…

1. El debate sobre qué aprenden los LLMs

Una serie de mensajes de investigadores reaviva una discusión vieja con argumentos afilados: qué capturan de verdad los grandes modelos de lenguaje y dónde están sus límites. La crítica conceptual más densa sostiene que estos sistemas aprenden el residuo textual del pensamiento humano, no los mecanismos que lo producen. El texto sería un producto de la cognición, no la cognición misma. Entrenar sobre él recogería correlaciones superficiales, sin reconstruir los procesos que hacen una idea válida, coherente o aplicable a casos nuevos. De ahí la distinción entre acumular conocimiento y generalizar: escalar datos y parámetros da competencia en tareas conocidas, pero no garantiza adaptación a lo inédito.

El debate apunta también al supuesto que guía buena parte del gasto actual, donde el progreso se persigue sumando cómputo. Otras intervenciones bajan a la práctica: con un LLM no se depura un fallo concreto como en el software clásico, sino que se ajusta su comportamiento de forma indirecta, vía prompts y ajuste fino, lo que complica la corrección y la reproducibilidad. El riesgo más tangible que se menciona son las alucinaciones que pasan desapercibidas y acaban adoptadas como creencias por los usuarios, un fallo difícil de cuantificar precisamente por su invisibilidad en consultas masivas.

La tesis más radical la firma 𝕏 @MLStreetTalk (Machine Learning Street Talk): los modelos aprenden las ‘sombras’ que proyecta una cognición limitada, no las leyes generativas que hacen un pensamiento transferible o creativamente extensible.

Para 𝕏 @fchollet (François Chollet) escalar conocimiento solo da ‘competencia estática’ ante problemas conocidos, mientras que la inteligencia se mide por la adaptabilidad a lo no visto, un dardo al paradigma de crecer a base de datos y tamaño.

2. El coste de tokens se vuelve negocio

El gasto en inferencia se ha convertido en una de las grandes preocupaciones de las empresas que despliegan modelos de lenguaje a escala, y ya hay negocios dedicados a reducirlo. La señal más concreta viene del entorno de Y Combinator: una startup que recorta el coste en tokens optimizando las peticiones enviadas a los modelos. Según el relato, logra rebajarlo cerca de la mitad y reparte el ahorro con el cliente. La cifra que circula sobre el mercado potencial, una cuarta parte de los ingresos corporativos de las compañías de modelos, sale de una estimación informal, sin datos verificables sobre la empresa ni sus resultados.

Detrás hay un debate más amplio sobre si la economía de la IA generativa cuadra. Una lectura del sector sostiene que el coste por token caerá y que la mayoría de cargas migrará a modelos baratos, dejando los de frontera para tareas de alto valor. Esa segmentación implica combinar familias de modelos según coste y exigencia, en lugar de aplicar siempre el más potente. El consumo intensivo de tokens (prompts largos, modelos de razonamiento, agentes que encadenan llamadas) se lee como prueba de adopción real y, a la vez, como fuente de despilfarro cuando el gasto deja de responder a una necesidad técnica.

Que los establecidos no rentabilicen aún el coste de los tokens no prueba nada para 𝕏 @paulg (Paul Graham): es el patrón habitual de toda tecnología nueva, donde las empresas establecidas la integran mal y acaban desplazadas por upstarts que la explotan mejor.

Para 𝕏 @levie (Aaron Levie) la obsesión empresarial con el coste de los tokens es buena señal: indica que la IA se usa a una escala antes impensable, y abre además una vía nueva de diferenciación competitiva entre compañías.

Con ironía, 𝕏 @tunguz (Bojan Tunguz) habla de una ‘era del consumo conspicuo de tokens’, sugiriendo que gastar grandes cantidades de cómputo se ha vuelto una señal de estatus más que una respuesta a la necesidad técnica.

3. El Estado, ¿dueño de la IA?

Una propuesta atribuida a Bernie Sanders, senador estadounidense del ala progresista, plantea que el Gobierno adquiera una participación del 50% en las empresas de inteligencia artificial. La iniciativa ha reabierto el debate sobre el papel del Estado frente a la concentración de poder en los grandes laboratorios. Lo llamativo no es la propuesta, sino quién le ve cierta lógica: perfiles cercanos al sector tecnológico reconocen que conecta con una inquietud presente también en la derecha. El argumento enlaza con declaraciones repetidas de los directivos de los principales laboratorios sobre el peligro de la IA, un discurso que alimenta la tesis de repartir el control de forma más amplia.

Los críticos, en cambio, encuadran la toma de participaciones públicas dentro del ‘capitalismo patrocinado por el Estado’, un modelo que asocian a Rusia y China y que, según ellos, produce compañías sobredimensionadas e incapaces de competir. El debate circula por X en forma de reacciones cruzadas, no de medidas articuladas, y ninguna de las informaciones procede de un documento oficial.

Pese a declararse contrario al socialismo y a las confiscaciones de riqueza, 𝕏 @DavidSacks (David Sacks) admite que entiende por qué la propuesta ‘resuena’, incluso entre muchos en la derecha, un reconocimiento llamativo viniendo de un perfil próximo al mundo tecnológico.

Para 𝕏 @Dan_Jeffries1 (Daniel Jeffries) la idea no es nueva sino ‘capitalismo patrocinado por el Estado’, el mismo modelo que Rusia y China usan para fabricar compañías pesadas e incapaces de competir.

𝕏 @pmddomingos (Pedro Domingos) ataca el marco del debate: si EE. UU. fuera una oligarquía, los más ricos no cambiarían con el tiempo, y sostiene que sí lo hacen.

4. Google acerca la IA al móvil con nuevas versiones ligeras de Gemma 4

Google DeepMind ha lanzado nuevas versiones de Gemma 4 optimizadas con Quantization-Aware Training (QAT), un método para “adelgazar” modelos de IA reduciendo el consumo de memoria sin perder tanta calidad. La compañía asegura que estos nuevos modelos están pensados para ejecutarse de forma local en dispositivos cotidianos, como móviles, portátiles y GPU de consumo, no solo en grandes infraestructuras cloud.

La clave está en el coste y el control. Según la documentación de Google, la memoria de Gemma 4 E2B puede reducirse hasta 0,84 GB en su versión móvil solo texto, mientras que Gemma 4 E4B se sitúa en 2,2 GB; incluso el modelo 12B del que ya hablamos en anteriores ediciones que puede ejecutarse con unos 6,7 GB. En la práctica, esto reduce la barrera para integrar IA en productos como apps internas, asistentes de soporte o dispositivos industriales, sin depender de servidores remotos.

La ejecución de modelos en local tiene tres ventajas: menor latencia, porque la respuesta se genera en el propio dispositivo; reducción de costes de computación en la nube; y más opciones para proteger datos sensibles, al evitar que todas las consultas salgan del entorno controlado. Google ya posiciona Gemma 4 como una familia de modelos abiertos para despliegues empresariales, con soporte en entornos soberanos donde el control de datos es crítico.

Más que una mejora técnica aislada, Gemma 4 QAT refuerza una tendencia de futuro: la IA se moverá del centro de datos al dispositivo. La pregunta ya no será solo qué modelo usar, sino dónde conviene ejecutarlo: en la nube para tareas pesadas, o en local cuando importan velocidad, coste y confidencialidad.

El contrapunto lo pone 𝕏 @emollick (Ethan Mollick), que ve a Gemini Pro iterando muy por detrás de Claude y GPT desde la 3.1 Pro de febrero, una brecha que el 3.5 Flash, por bueno que sea, no termina de cerrar.

Para 𝕏 @WesRoth (Wes Roth) el avance de Gemma 4 QAT está en reducir drásticamente los requisitos de memoria preservando más calidad que la cuantización estándar, el cuello de botella habitual para correr modelos abiertos en hardware modesto.

Desde dentro, 𝕏 @OfficialLoganK (Logan Kilpatrick) se declara optimista sobre Gemini sin más matices, un mensaje breve que contrasta con las dudas externas sobre el ritmo de los modelos Pro.

𝕏 @testingcatalog (Ai News | Testingcatalog) rebaja las expectativas sobre el Troubleshooting Mode: funciona y está accesible, pero tiene pinta de lanzamiento no intencionado y podría retirarse.

Probando la edición de vídeo, 𝕏 @jonesyoutubejt (Jt Jones) cuenta que Gemini conservó casi todo su audio en un clip de diez segundos pero se inventó un añadido para reforzar el mensaje, un recordatorio de que la fidelidad aún tiene aristas.

Más información:

📎 Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

5. El código abierto en IA revisa sus límites

El debate sobre la apertura en IA se ha tensado esta semana en torno a una distinción que muchos pasan por alto: no es lo mismo publicar pesos que publicar un modelo realmente abierto. El caso más común es el 'weight drop' típico de los modelos chinos, que solo libera solo los pesos; por el contrario la apertura completa añade datos de entrenamiento, código y metodología, lo que permite reproducir y auditar el trabajo. Esa categoría más exigente escasea. La serie OLMo del Allen Institute for AI, era uno de los pocos ejemplos entrenados desde cero con todo el proceso documentado, pero podría estar acercándose a su fin. Esto dejaría a los modelos Nemotron de NVIDIA como referencia restante en ese terreno.

En paralelo, el ritmo de publicaciones de pesos no afloja: la comunidad ha contabilizado más de 25 lanzamientos notables en una sola semana, buena parte de laboratorios chinos. Ahí está el punto frágil. La mayoría de modelos locales y ajustados depende de que esos laboratorios sigan liberando pesos, una práctica cuya sostenibilidad económica nadie garantiza conforme suben los costes de entrenamiento.

Una corrección histórica útil llega de 𝕏 @giffmana (Lucas Beyer (Bl16)), que recuerda que hitos como AlexNet, Seq2seq o el Transformer no publicaron código ni pesos, y que ResNet, BERT o CLIP soltaron pesos pero no su código original: el listón de apertura que hoy se exige es más alto que el que impulsó el campo.

El aviso de fragilidad lo pone 𝕏 @emollick (Ethan Mollick): buena parte del ecosistema abierto pende de que los laboratorios chinos sigan publicando pesos, algo que duda que aguante porque los pesos abiertos podrían dejar de ser un negocio rentable conforme suben los costes.

6. CVPR 2026 premia visión 3D y generación de imágenes

CVPR 2026, la principal conferencia de visión por computador, ha repartido sus distinciones a mejor artículo entre varios laboratorios industriales. Meta logró una Mención de Honor por SAM 3D, un modelo generativo que reconstruye geometría, textura y disposición tridimensional desde una sola imagen. Su mérito está en sostener la reconstrucción en escenas reales, con desorden y oclusión, donde estos sistemas suelen fallar. Meta promete liberar código, pesos, una demo online y un nuevo benchmark de reconstrucción 3D en entornos no controlados, y reporta una tasa de preferencia humana de al menos 5 a 1 frente a trabajos recientes.

NVIDIA Research llegó como finalista con PixelDiT (Pixel Diffusion Transformers), que cuestiona el diseño dominante en generación de imágenes. Los modelos de difusión latente, como Stable Diffusion, comprimen la imagen con un autoencoder variacional antes de generar; esa compresión pierde detalle, difumina texto y texturas, e introduce artefactos. PixelDiT trabaja directamente sobre píxeles, en un único proceso de entrenamiento, para evitar esa degradación.

El equipo de 𝕏 @AIatMeta (Ai At Meta) presenta SAM 3D como un empuje a los límites de la visión por computador, con la promesa explícita de publicar código, pesos y un benchmark abierto que rara vez acompaña a este tipo de anuncios.

Desde 𝕏 @NVIDIAAI (Nvidia Ai) defienden que el problema de fondo no es la difusión sino la etapa previa de compresión, una pérdida que se acumula a lo largo del pipeline y que PixelDiT busca eliminar trabajando en píxeles.

Más información:

📎 PixelDiT: Pixel Diffusion Transformers

📎 SAM 3D: 3Dfy Anything in Images

7. China toma la delantera en código abierto

Los laboratorios chinos se han consolidado como referencia en modelos abiertos, y los benchmarks recientes lo confirman. Nemotron3 Ultra, la apuesta de NVIDIA en código abierto, queda por detrás de Kimi K2.6 y GLM-5.1 en pruebas de programación como TerminalBench. En paralelo, MiniMax M3 ha entrado en Arena, la plataforma de evaluación comparativa de modelos, con 1531 puntos en la categoría Code Arena: Frontend, cerca de GLM-5.1 pero a un precio mucho menor.

Esa combinación de rendimiento y coste mueve la frontera de Pareto en herramientas de codificación, donde más pesa el gasto en inferencia. El telón de fondo es un cambio de liderazgo documentado: un estudio de MIT y Hugging Face, que analiza descargas entre 2020 y agosto de 2025, sitúa a China por delante de EE. UU. en IA abierta, con laboratorios chinos en los seis primeros puestos del ranking y liderando las descargas de nuevos proyectos. El debate ya no es solo técnico, sino de política industrial: cómo cerrar la brecha. Conviene calibrar el alcance. Las cifras de benchmark proceden de mensajes en X sin metodología publicada ni comparativas verificadas de forma independiente. Las puntuaciones de Arena son posiciones relativas en una plataforma concreta, no medidas absolutas de capacidad. Los precios citados tampoco vienen acompañados de tarifas detalladas en las fuentes.

Con sorna, 𝕏 @SemiAnalysis_ (Semianalysis) sugiere que, si Nemotron3 Ultra pierde frente a Kimi y GLM en TerminalBench, Jensen Huang haría bien en invitar a algún laboratorio puntero a su comité de modelos abiertos para que aprendan a entrenarlos.

Para 𝕏 @WesRoth (Wes Roth) lo destacable de MiniMax M3 no es su puntuación sin más, sino que iguale casi a GLM-5.1 compitiendo en una franja de precio muy inferior, lo que desplaza el equilibrio coste-rendimiento en codificación frontend.

8. Dos agentes de IA rinden peor que uno

Un estudio de Stanford HAI, llamado CooperBench, sostiene que dos agentes de programación que colaboran en una misma tarea rinden casi un 50% peor que un único agente trabajando solo. El obstáculo no está en la competencia para escribir código, sino en la coordinación: repartir responsabilidades, comunicar avances y verificar el trabajo del otro son habilidades que los modelos actuales apenas manejan. Los autores lo describen como un déficit de inteligencia social, no de razonamiento.

El resultado contradice la premisa que sostiene buena parte de los sistemas multiagente en desarrollo, donde se da por hecho que sumar agentes mejora el rendimiento. Llega en pleno empuje comercial hacia equipos de agentes y flujos automatizados, arquitecturas que consumen muchos tokens y elevan el coste operativo. Otra evidencia apunta en la misma línea: trabajos de Carnegie Mellon sitúan la tasa de fallo de los agentes en tareas de oficina en torno al 70%, y varios informes calculan que solo un 11% de los pilotos en pymes llega a producción.

Desde 𝕏 @StanfordHAI (Stanford Hai) lo llaman 'la maldición de la coordinación': los mejores agentes de programación pierden casi la mitad de su capacidad al repartirse el trabajo, señal de que el cuello de botella es la inteligencia social y no la destreza para programar.

Para 𝕏 @emollick (Ethan Mollick), el gráfico de Anthropic que separa equipos de agentes de flujos de trabajo resulta útil, aunque relativiza la elección humana: cada vez decide la propia IA qué enfoque usar, y suele combinarlos.

Más información:

📎 AI Coding Agents Fail at Teamwork

Discusión sobre este post

Por supuesto, sigue adelante.