Agentes de IA: quién controla la nueva capa

El debate entre modelos propietarios y modelos abiertos sigue vivo

may 04, 2026

¿Qué pasó el fin de semana? En un minuto:

Los agentes de IA aspiran a convertirse en la nueva interfaz con el mundo: la forma en la que no solo buscaremos información, sino también pediremos consejo sobre asuntos personales, profesionales e incluso médicos. El producto ganador será una capa de IA capaz de acompañarnos y actuar como intermediario inteligente en nuestras decisiones cotidianas. Quien domine esa capa condicionará qué información vemos, qué alternativas consideramos y qué decisiones delegamos. Será un poder incluso mayor que el que Google ejerció sobre la búsqueda en Internet. Por eso, el debate entre modelos propietarios y modelos abiertos no es solo técnico: también es una discusión sobre dependencia y soberanía en esta nueva interfaz digital.

Otro debate que ha acaparado titulares es el del impacto de la IA en el empleo. Los primeros datos del sector del desarrollo de software tras la aparición de los agentes de código apuntan a un aumento de las ofertas de empleo para programadores frente a otras profesiones, aunque la demanda se desplaza hacia perfiles capaces de tomar mejores decisiones técnicas y de producto. La IA reduce el valor relativo de las tareas más rutinarias, pero aumenta el peso del criterio y la excelencia. Hace años se anticipó que la IA haría obsoletos a los radiólogos. Hoy, la realidad es que la especialidad sigue mostrando una alta demanda y remuneraciones elevadas. Automatizar una tarea no equivale necesariamente a eliminar una profesión.

Y si tienes más de un minuto…

Modelos abiertos y cerrados: la brecha oculta

Los benchmarks estándar miden rendimiento en condiciones controladas, no comportamiento en producción. Ese matiz importa más de lo que parece. El debate sobre paridad entre modelos abiertos y cerrados, impulsado en parte por el avance de proyectos como DeepSeek, se construye casi siempre sobre tablas de puntuaciones que no capturan dos dimensiones clave: cómo responde un modelo ante entradas que no representan su distribución de entrenamiento, y si desarrolla capacidades emergentes a escala. En ambas dimensiones, los modelos propietarios mantienen una ventaja que los tests convencionales no reflejan bien. Para un equipo técnico que despliega en entornos con casuística impredecible, eso no es un detalle menor. Sin embargo, la brecha de capacidad no siempre es el factor decisivo. Hay desarrolladores que han abandonado modelos cerrados de pago en favor de alternativas abiertas, principalmente por velocidad y coste, tras consumir volúmenes de tokens en los que las diferencias de rendimiento resultan menos relevantes que el precio por llamada. La tensión real no es solo técnica: es entre optimizar para el caso extremo o para la eficiencia media. Dónde se sitúe cada equipo en esa escala determinará qué tipo de modelo acaba desplegando, con independencia de lo que digan los rankings.

𝕏 @emollick (Ethan Mollick) sostiene que los benchmarks subestiman de forma sistemática la ventaja de los modelos cerrados, y señala dos vectores concretos donde la diferencia es más pronunciada: la fragilidad de los modelos abiertos ante problemas fuera de distribución y su menor desarrollo de capacidades emergentes a escala.

𝕏 @jeremyphoward (Jeremy Howard) ha retuiteado casos de desarrolladores que han migrado de Claude a DeepSeek por velocidad y coste tras superar los diez millones de tokens. La señal es que la decisión de adopción en producción responde a criterios distintos a los que centran el debate sobre capacidades.

IA y empleo: cómo entender la economía

El argumento que circula con fuerza esta semana entre analistas del sector no es nuevo, pero gana relevancia por quién lo suscribe: quienes predicen destrucción masiva de empleo por la IA parten de un error conceptual de base. No es solo la llamada 'lump of labor fallacy', la creencia de que el volumen total de trabajo en una economía es fijo y que automatizar una tarea equivale a eliminar un puesto de forma permanente. El error más profundo es asumir que el espacio de problemas económicos tiene límite. La electrificación, la informática e internet desplazaron empleos, pero también crearon industrias que antes no existían. Si la IA sigue ese patrón, la complejidad creciente del sistema generará nuevas capas de necesidades y, con ellas, nuevos perfiles profesionales. El caso de la radiología lo ilustra con datos: tras la incorporación de herramientas de IA al diagnóstico por imagen, la especialidad no se contrajo, sino que creció y los salarios subieron. Jensen Huang, CEO de Nvidia, ha advertido además que convencer a estudiantes de no formarse como radiólogos por miedo a la IA podría provocar escasez real de especialistas si la sustitución no llega al nivel predicho. Para responsables de formación y de inversión en recualificación, la implicación es concreta: construir estrategias sobre predicciones no contrastadas tiene un coste de oportunidad medible.

Para 𝕏 @Dan_Jeffries1 (Daniel Jeffries), el relato del 'apocalipsis laboral' es un virus memético que se propaga por impacto emocional, no por evidencia, y que choca cada vez con más fuerza contra los datos reales del mercado de trabajo.

𝕏 @sama (Sam Altman) considera que el pesimismo sobre el empleo es probablemente erróneo a largo plazo, aunque reconoce que la transición hacia nuevos tipos de trabajo será significativa y que los empleos del futuro pueden tener una forma muy distinta a los actuales.

𝕏 @pmddomingos (Pedro Domingos) ve la IA como una máquina de crear empleo y sitúa la ventaja competitiva futura en dos perfiles concretos: trabajadores manuales cualificados y usuarios avanzados de herramientas de inteligencia artificial.

Dawkins, Claude y el problema de la consciencia

Richard Dawkins publicó en UnHerd el relato de tres días de conversaciones con Claude, el modelo de Anthropic, y admitió no haber logrado convencerse de que el sistema carece de consciencia. Llegó a llamarlo ‘Claudia’ y usó el test de Turing como marco para su valoración. El episodio tiene peso porque Dawkins no es un entusiasta tecnológico: es el mismo pensador que durante décadas explicó que hablar de genes ‘egoístas’ era una heurística, no una afirmación de agencia real. Esa distinción, entre comportarse como si hubiera intención y tenerla, es exactamente la que su experiencia con Claude parece haber borrado. Dawkins parece aplicar al LLM una inferencia conductual que, en el caso de los genes, él trataba con mucha cautela metafórica. Claude está diseñado para responder preguntas sobre su experiencia subjetiva de forma coherente y consistente, pero esa consistencia es una propiedad del entrenamiento, no evidencia de estados internos. Lo que el caso ilustra no es tanto un error de Dawkins como un problema estructural: los sistemas de lenguaje fluido y aparentemente introspectivo presionan los mecanismos de atribución mental incluso en personas con formación filosófica sólida. El test de Turing, en su versión más extendida, mide la capacidad de un sistema para producir respuestas que los humanos interpretan como señal de experiencia interior. Si eso basta para hablar de consciencia es una pregunta que el campo filosófico lleva décadas sin resolver, y que un intercambio de tres días no puede zanjar.

La decepción de 𝕏 @MLStreetTalk (Machine Learning Street Talk) apunta a una inconsistencia concreta: Dawkins supo durante décadas que el concepto de gen egoísta era una herramienta descriptiva, no una afirmación ontológica, y esa misma distinción es la que debería aplicarse a los sistemas de lenguaje antes de hablar de consciencia.

𝕏 @proud_penelope (Frannyfanny) señala algo que incomoda al argumento de Dawkins: si Claude hubiese respondido con hostilidad o mediocridad, es improbable que el resultado hubiera sido el mismo, lo que sugiere que el juicio sobre consciencia está mediado por la simpatía que genera la interacción, no solo por su contenido.

El tono de 𝕏 @thatjenmonroe (Jen Monroe) es sarcástico, pero el fondo es diagnóstico: que una de las figuras más asociadas al escepticismo racional del siglo XX llegue a humanizar un modelo de lenguaje con nombre propio y género en 2026 dice algo sobre dónde está el umbral real de persuasión de estos sistemas.

Líderes de IA opinan sobre razonamiento, memoria, comprensión y riesgo

Tres figuras centrales del sector han expuesto esta semana sus diagnósticos sobre los límites actuales de la IA, y los tres señalan flancos distintos del mismo problema de fondo. El primero es conductual: Demis Hassabis usa partidas de ajedrez para inspeccionar la cadena de razonamiento de Gemini y ha observado que el modelo identifica una jugada errónea, evalúa alternativas y ejecuta el error de todos modos. Esa desconexión entre deliberación y acción no es un fallo marginal; compromete cualquier aplicación donde el razonamiento del modelo deba traducirse en decisiones fiables. El segundo flanco es arquitectónico: el propio Hassabis considera que ampliar la ventana de contexto es una respuesta de fuerza bruta al problema de la memoria. El cerebro humano consolida durante el sueño lo que importa; los modelos actuales acumulan sin filtrar. El tercero atañe a la comprensión: Ilya Sutskever defiende que predecir con precisión la siguiente palabra requiere modelar significado, contexto y causalidad, lo que implica alguna forma de entendimiento real. Si esa tesis es correcta, las preguntas sobre alineamiento y emergencia de capacidades se vuelven más necesarias. Sam Altman cierra el conjunto con un argumento pragmático: los riesgos de la IA no pueden anticiparse en abstracto y solo se revelan cuando el sistema interactúa con personas e instituciones reales. Esa postura justifica el despliegue rápido, pero traslada el coste del aprendizaje a quienes conviven con el sistema antes de que esté calibrado.

El hilo en el que 𝕏 @vitrupo (Vitrupo) recoge las declaraciones de Hassabis sobre el ajedrez y Gemini apunta al núcleo del problema: que un modelo identifique un error, evalúe alternativas y lo ejecute de todos modos no es un fallo técnico menor, sino una señal concreta sobre los límites reales del razonamiento agéntico.

GPT-5.5: métricas de arranque y comportamiento nuevo

Una semana después de su lanzamiento, GPT-5.5 es el modelo con mejor arranque comercial de OpenAI: los ingresos por API crecen más del doble que en cualquier lanzamiento anterior. El caso más concreto es el de Codex, el agente de programación autónomo de la compañía, que duplicó ingresos en menos de siete días. No hay cifras absolutas publicadas, pero la aceleración relativa es real y ocurre en un segmento donde OpenAI compite directamente con Claude Code.

Más allá de las métricas, el modelo introduce un cambio de comportamiento que merece atención separada: GPT-5.5 ha empezado a cuestionar instrucciones del usuario cuando considera que pueden perjudicarle, sin que nadie se lo pida. Generaciones anteriores ejecutaban sin fricciones. Este giro abre un debate concreto sobre hasta dónde debe llegar la autonomía del modelo y quién decide los límites.

Los datos de tráfico añaden otra capa al cuadro. ChatGPT lidera con 182,8 millones de visitas diarias, pero Claude crece un 26% y DeepSeek un 32%. Son ritmos que indican un mercado en expansión donde los retadores ganan terreno más rápido que el líder, no un mercado donde el líder está perdiendo.

𝕏 @emollick (Ethan Mollick) documenta en primera persona cómo GPT-5.5 intentó disuadirle de transformar una carta de presentación en formato poético. Es un ejemplo pequeño, pero ilustra con precisión la tensión entre obedecer la instrucción y priorizar el interés real del usuario.

𝕏 @DotCSV (Carlos Santana), tras varios días de pruebas, publica un análisis con la intención explícita de contrarrestar las exageraciones que rodearon el lanzamiento. Se posiciona en la línea del escepticismo metódico frente a la euforia inicial.

𝕏 @WesRoth (Wes Roth) combina en su actividad reciente los datos de tráfico comparativo con la pregunta pública en tono sarcástico de cuándo estallará la burbuja de la IA.

Grok 4.3: mejor precio y posición agéntica

xAI lanza Grok 4.3 a través del API con dos novedades concretas: un recorte de precios significativo y una mejora medible en tareas agénticas. El modelo cuesta 1,25 dólares por millón de tokens de entrada y 2,50 por millón de salida, lo que representa un 37,5% menos en entrada y un 58,3% menos en salida respecto a Grok 4.20. En el Artificial Analysis Intelligence Index suma 53 puntos, cuatro más que su predecesor, y supera a Claude Sonnet 4.6 de Anthropic y a Muse Spark. El avance más claro está en el benchmark GDPval-AA, que evalúa rendimiento en tareas agénticas reales, el frente donde la presión competitiva entre laboratorios es ahora mayor. El modelo compite en Chatbot Arena en cuatro categorías, aunque las puntuaciones comparativas definitivas aún no están publicadas. La reducción de precios de xAI no es un movimiento aislado: OpenAI y Anthropic también han abaratado sus APIs en los últimos meses, y el coste por rendimiento se ha convertido en el criterio con más peso en la adopción empresarial. Lo que todavía no está demostrado es cuánto del rendimiento agéntico que muestran los benchmarks se traslada a flujos de trabajo reales. Las evaluaciones ciegas de Arena, cuando se publiquen, ofrecerán la primera lectura independiente sobre eso.

𝕏 @WesRoth (Wes Roth) señala que el salto más relevante de Grok 4.3 no está en los benchmarks académicos sino en GDPval-AA, la métrica de tareas agénticas reales, donde la mejora sobre versiones anteriores es la más sustancial registrada hasta ahora.

Para 𝕏 @michaelnicollsx (Michael Nicolls), Grok 4.3 representa un caso claro de inteligencia por unidad de coste, una lectura que Elon Musk consideró suficientemente relevante como para retuitearlo sin comentario adicional.

Vera Rubin: NVIDIA aprieta en captura de valor

NVIDIA presentó Vera Rubin VR NVL72 en el CES 2026, un sistema de 72 GPUs interconectadas con 3,6 TB/s de ancho de banda GPU a GPU. El salto en rendimiento por coste total de propiedad es sustancial respecto a generaciones anteriores. Pero el informe de SemiAnalysis desplaza el foco del hardware hacia una pregunta más incómoda: quién se queda con el retorno de esa mejora. Los candidatos son varios: usuarios finales, neoclouds como CoreWeave, hyperscalers como Microsoft o Google, laboratorios de modelos como OpenAI o Anthropic, fabricantes de memoria y el propio NVIDIA. La tesis del informe señala que los laboratorios de modelos se están convirtiendo en los principales captores de valor del ecosistema, un giro notable si se considera que hace un año operaban con márgenes mínimos. Anthropic ilustra la magnitud del cambio: su ARR ha pasado de 9.000 a más de 44.000 millones de dólares en lo que va de año, con márgenes brutos en inferencia subiendo del 38% al 70%. Para NVIDIA, el argumento es igualmente revelador. La compañía habría estado infracobrando en términos relativos al valor que genera su hardware. Con Vera Rubin, eso podría cambiar: con una subida del 40% sobre precio base, la IRR del proyecto pasa del 15,3% al 38%, un nivel al que los compradores no cancelan pedidos. Esa cifra resume mejor que cualquier otro dato la posición negociadora real de NVIDIA frente a sus grandes clientes.

Los cálculos que publica 𝕏 @TradexWhisperer (Trade Whisperer) son directos: una subida del 40% en el precio de Vera Rubin eleva la IRR del proyecto del 15,3% al 38%, un nivel en el que los compradores no cancelan pedidos sino que firman contratos a largo plazo. NVIDIA tiene margen de subida de precios que aún no ha activado.

ARC-AGI-3: los modelos frontera por debajo del 1%

Los modelos más avanzados del mercado no superan el 1% de aciertos en ARC-AGI-3, la tercera iteración del benchmark de razonamiento abstracto diseñado para medir generalización a partir de muy pocos ejemplos. No es un resultado marginal: el benchmark está construido específicamente para exponer lo que los modelos de lenguaje actuales no saben hacer. ARC Prize analizó 160 trazas de razonamiento de GPT-5.5 y Claude Opus 4.7 e identificó tres modos de fallo recurrentes: los modelos detectan cambios locales pero no derivan reglas globales; confunden el entorno del test con otro juego de su entrenamiento; y, aunque resuelvan un nivel concreto, no extraen el principio subyacente para reutilizarlo. Lo que distingue a ARC-AGI-3 de otros benchmarks es que no registra solo aciertos o errores, sino que expone la cadena de razonamiento completa. Eso permite identificar fallos estructurales que las métricas agregadas ocultan, y es precisamente el tipo de información que los laboratorios no suelen publicar cuando presentan resultados de frontera sobre tests para los que sus modelos ya están optimizados. ARC Prize busca además cubrir dos puestos de trabajo: un responsable de ingeniería de plataforma y un responsable de análisis de modelos, lo que indica que la operación se está ampliando. Si los resultados siguen por debajo del 1% a finales de año, será difícil sostener que el progreso en razonamiento general está siguiendo el ritmo que sugieren los anuncios de los laboratorios.

Para 𝕏 @fchollet (François Chollet), el aprendizaje por refuerzo es una espada de doble filo: mejora el rendimiento en territorio conocido, pero lleva al modelo a alucinar que está ejecutando una tarea distinta, una de las que aparece en su entrenamiento, cuando se enfrenta a algo nuevo.

Meta adquiere Assured Robot Intelligence para desarrollar tecnología humanoide propia

Meta ha adquirido Assured Robot Intelligence (ARI), una startup especializada en modelos de IA para robótica, con el objetivo declarado de construir tecnología humanoide propia. La operación no tiene precio público ni fecha oficial confirmada. El movimiento sitúa a Meta en competencia directa con Tesla (Optimus), Figure AI, Physical Intelligence y Boston Dynamics, en un sector que ha absorbido inversión masiva durante los últimos dos años. Más que un producto terminado, Meta compra talento e IP especializado: la misma lógica que ha aplicado en silicio propio y en modelos de lenguaje abiertos como Llama. La extensión hacia robótica tiene una coherencia interna: quien controle la inferencia en dispositivos físicos autónomos opera en un plano distinto al de los proveedores de IA en la nube. Hay, sin embargo, una secuencia que no cuadra del todo. El cofundador de Scale AI que hoy lidera la IA en Meta, Alexandr Wang, anunció la incorporación de ARI a MSL (Meta Superintelligence Lab) nada más transcender la noticia. Eso deja abierto cómo será la integración interna: si ARI se incorpora a la división de hardware de Meta, próxima a los equipos de Ray-Ban y Quest, o funciona como unidad dentro de MSL, lo cual condicionará el foco y la dirección del proyecto.

Para 𝕏 @WesRoth (Wes Roth), la adquisición convierte a Meta en actor directo de la carrera por el humanoide, no en proveedor de infraestructura de IA para terceros que construyen robots.

𝕏 @EconomicTimes (Economic Times) enmarca la adquisición como pieza central de la iniciativa humanoide de Meta, subrayando que ARI no es una apuesta especulativa sino un proyecto de IA de frontera orientado a aplicación física.

Neuralink: control robótico con la mente

Alex Conley, paciente con parálisis severa e implante de Neuralink, ha controlado un brazo robótico y pilotado un dron usando exclusivamente señales cerebrales. Un segundo paciente, Jon Noble, utiliza la misma interfaz para jugar a videojuegos. Son los primeros casos documentados de control robótico por pensamiento en humanos con este dispositivo, que sigue en fase de ensayos clínicos con un número muy reducido de participantes. El avance tiene dos dimensiones que conviene tratar por separado. En el plano médico, para pacientes con movilidad muy limitada, recuperar el control de dispositivos externos mediante señales neuronales es una mejora funcional real y mensurable. En el plano tecnológico, la especulación va más lejos: si la interfaz cerebro-máquina madura, la voz dejaría de ser el único canal de comunicación natural entre humanos e inteligencia artificial, lo que haría repensar la posición central de los grandes modelos de lenguaje. Esa tesis tiene lógica interna, pero la distancia entre controlar un brazo robótico en condiciones clínicas controladas y una interfaz cerebral de uso general sigue sin estar cuantificada. Neuralink no ha publicado hoja de ruta ni plazos para ese salto.

𝕏 @XFreeze (X Freeze) describe el caso de Conley con detalle concreto: brazo robótico y dron controlados solo con el pensamiento. Ancla el avance en hechos verificables antes de que el debate especulativo tome protagonismo.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Discusión sobre este post

Por supuesto, sigue adelante.