Codex ya puede realizar tareas de escritorio por ti con el ordenador cerrado

El radio de acción de los agentes de programación se extiende al uso de ordenadores.

Miguel A. Román

may 22, 2026

¿Qué pasó ayer? En un minuto:

OpenAI convierte a Codex en agente que maneja las aplicaciones de escritorio de un Mac, incluso con la pantalla apagada y control desde el móvil.
Alibaba coloca Qwen 3.7 Max, especializado en flujos de agentes, en el quinto puesto del índice AAI Artificial Analysis Intelligence Index, cerca de Claude Opus 4.7 y por delante de Gemini 3.5 Flash.
OpenAI lanza un complemento oficial de ChatGPT para PowerPoint que genera y edita diapositivas dentro de la aplicación, sin pasar por Copilot.
La escasez de cómputo está partiendo en dos la economía de la IA: chatbots cada vez más baratos para todos y agentes caros para quien pueda pagarlos.
Greg Brockman advierte que el modelo ya no es el producto, el valor está en la capa de agentes e integraciones que los laboratorios controlan mejor que nadie.
Nvidia lanza un sistema para firmar y auditar los ‘skills’ compartidos, se posiciona en la capa de gobernanza y seguridad del software agéntico.
Google integra CapCut dentro de Gemini y suma conectores con OpenTable, Canva e Instacart, con el propósito de ejecutar tareas sobre apps de terceros.

Y si tienes más de un minuto…

1. Codex da el salto al escritorio con la pantalla apagada

OpenAI ha presentado en su 'Codex Thursday' una tanda de actualizaciones que empuja a su asistente de programación hacia un papel de agente operativo sobre el ordenador. La pieza central es Computer Use, que permite a Codex manejar aplicaciones de un Mac desde el móvil, incluso con el equipo bloqueado y la pantalla apagada. Requiere instalar un plugin y conceder permisos de Grabación de Pantalla y Accesibilidad en macOS. Queda fuera del Espacio Económico Europeo, Reino Unido y Suiza, un patrón habitual ante exigencias como DMA, AI Act y GDPR.

El paquete incluye además Appshots, que adjunta la ventana de una app a un hilo de Codex con doble pulsación de Command; el famoso modo /goal activado por defecto; anotaciones avanzadas en navegador para ajustar visualmente páginas web mientras se deja feedback; compartición de plugins en equipo y mejor analítica de tokens para clientes empresariales. El conjunto coloca a Codex como agente capaz de ver y operar interfaces reales, en plena pugna con Claude Code y Antigravity. Las empresas tendrán primero que escuchar la opinión de los responsables de seguridad ante una herramienta así, que concede a un agente control efectivo del escritorio corporativo.

Para 𝕏 @gdb (Greg Brockman), la lectura clave es de formato: Codex pasa a manejar todas las apps del ordenador desde el teléfono, un cambio de superficie que convierte el móvil en mando a distancia del escritorio.

Desde el seguimiento de producto, 𝕏 @testingcatalog (Ai News | Testingcatalog) subraya un detalle fácil de pasar por alto: el comando /goal viene activado por defecto, señal de que OpenAI ya no lo ve como una prueba de concepto.

Más información:

📎 OpenAI Developers - Computer Use

2. Qwen 3.7 Max apunta a agentes

Alibaba ha presentado Qwen 3.7 Max, su nueva versión insignia, posicionada para lo que llama la Era de los Agentes. El modelo logra 56,6 puntos en el Artificial Analysis Intelligence Index, 4,8 más que Qwen 3.6 Max Preview, a menos de un punto de Claude Opus 4.7 (57,3) y por delante del recién estrenado Gemini 3.5 Flash (55,3). Alibaba reivindica mejoras en razonamiento científico, generación de código, capacidades agénticas y menor tasa de alucinaciones. El lanzamiento llega con dos productos asociados: un agente de programación pensado para cubrir el ciclo completo (prototipos de frontend, refactorizaciones multiarchivo y depuración) y Cowork Productivity Assistant, un asistente de oficina que adopta la misma etiqueta Cowork ya usada por Anthropic y Microsoft.

La compañía mostró además un experimento de auto-mejora: el modelo operó 35 horas sin intervención, ejecutó 1.158 llamadas a herramientas y 432 evaluaciones para optimizar una computación en la ejecución de modelos de IA, con una ganancia geométrica de 10x. Un laboratorio chino vuelve al pelotón de cabeza por capacidad medida, lo que refuerza la opción de despliegues empresariales no estadounidenses. También resulta interesante observar la convergencia terminológica con Claude Cowork confirma que la pelea de 2026 se juega en ejecución de tareas integradas, no en calidad conversacional.

El equipo de 𝕏 @Alibaba_Qwen (Qwen) presenta el experimento de auto-evolución como prueba de concepto: si un modelo puede reescribir y perfilar su propio kernel de atención sin supervisión, el siguiente paso natural es delegarle parte del trabajo de ingeniería de infraestructura.

Para 𝕏 @WesRoth (Wes Roth), el ángulo relevante no es el benchmark sino el formato del producto: Alibaba describe Qwen 3.7 Max como agente de código, asistente ofimático y sistema multi-agente a la vez, encajando la oferta china en las mismas categorías que ya ocupan Codex y Claude.

𝕏 @bridgemindai (Bridgemind) subraya el dato incómodo para los laboratorios estadounidenses: un modelo de Alibaba se cuela en el quinto puesto global del Artificial Analysis Intelligence Index, a menos de un punto de Opus 4.7, lo que rompe la idea de una brecha cómoda entre EE. UU. y China.

Más información:

📎 Artificial Analysis Intelligence Index

3. ChatGPT entra en PowerPoint

OpenAI ha lanzado en beta un complemento oficial de ChatGPT para PowerPoint. Se instala desde el propio PowerPoint y abre un panel conversacional en el lateral derecho. Tras autenticarse con una cuenta de OpenAI, el asistente genera presentaciones desde cero a partir de una instrucción en lenguaje natural, lee archivos existentes para mejorarlos, convierte actas de reunión o tablas en diapositivas y resume la línea narrativa del documento. El detalle técnico relevante: la salida queda totalmente editable, no como bloque cerrado.

El movimiento mete a OpenAI dentro del software ofimático de Microsoft sin pasar por Copilot, que hasta ahora era la vía principal para llevar modelos GPT a Office y que también se apoya en tecnología de OpenAI. Eso genera un solapamiento incómodo en el escritorio corporativo: dos asistentes con el mismo motor compitiendo por el mismo flujo, con licencias y políticas de datos distintas. Para el comprador empresarial, la elección deja de ser modelo contra modelo y pasa a ser proveedor contra proveedor dentro del mismo entorno.

𝕏 @WesRoth (Wes Roth) subraya que las diapositivas generadas siguen siendo plenamente editables, un matiz que separa esta integración de los generadores de PPT que entregan contenido cerrado y difícil de retocar.

𝕏 @testingcatalog (Ai News | Testingcatalog) bautiza la función como 'PowerGPT' para destacar que ya no es un copia y pega desde la web sino un asistente nativo dentro de la aplicación. Un cambio de superficie más que de capacidad.

𝕏 @LufzzLiz (Lufzzliz) avisa de un detalle práctico: la galería de complementos incluye varios plugins que imitan el nombre, así que el riesgo inmediato para IT es que los usuarios acaben instalando un add-in clónico en lugar del oficial de OpenAI.

Más información:

📎 ChatGPT for PowerPoint in beta

4. El cómputo se encarece y divide el mercado

El debate de la semana se ha desplazado del rendimiento de los modelos al precio del cómputo que los sostiene. La tesis que circula es que la escasez de capacidad va a romper la economía de la IA en dos tramos: los chatbots de un turno seguirán abaratándose por competencia y optimización, mientras que los flujos agénticos, que encadenan razonamiento, múltiples llamadas y uso de herramientas, consumen miles de veces más tokens y serán más caros. La señal corporativa más nítida llega de OpenAI, que con Guaranteed Capacity lanzó una oferta para que los clientes reserven acceso a su cómputo a largo plazo. La métrica que importa deja de ser el coste por token de chat y pasa a ser el precio por tarea agéntica completada.

Arena, la plataforma de evaluación de modelos por votación humana, publica una vista de frontera de Pareto en su Text Arena que cruza calidad con coste, tipo de licencia, laboratorio y ventana de contexto. El leaderboard agrega más de 6,29 millones de votos sobre 360 modelos, con filtros orientados a decisiones de compra. El dato central es contundente: alcanzar calidad equivalente a GPT-4 cuesta hoy unos 0,10 dólares por millón de tokens mezclados, frente a 50 dólares en 2023, una caída cercana a 500 veces. Además, el tramo alto del mercado ofrece a la vez mejor rendimiento y precios inferiores a los de hace dos años. La capa de modelo se está comoditizando y la diferenciación se desplaza hacia el coste por tarea, por lo que elegir modelo se vuelve un problema de eficiencia económica en el contexto de cada empresa.

El matiz que añade 𝕏 @emollick (Ethan Mollick) es incómodo para la narrativa de democratización: que todo el planeta acceda gratis a chatbots no compensa que el trabajo automatizado de verdad, el agéntico, quede reservado a quien pueda pagarlo.

Desde el lado del software empresarial, 𝕏 @levie (Aaron Levie) describe el salto como un cambio de unidad económica: ya no se factura por consulta barata, sino por tareas largas con modelos diez veces más caros en inferencia, lo que obliga a replantear precios SaaS y a justificar ROI tangible.

𝕏 @arena (Arena.Ai) enmarca la caída de 500x en el coste de calidad GPT-4 como un patrón sostenido desde 2023, no como un episodio puntual, reforzando la idea de que la comoditización de la capa de modelo es la tendencia dominante.

Más información:

📎 LLM Leaderboard - Best Text & Chat AI Models Compared

5. El modelo deja de ser el producto

El debate sobre dónde reside el valor en la IA generativa ha vuelto al primer plano tras la afirmación de Greg Brockman, presidente de OpenAI: el modelo por sí solo ya no es el producto. Llega después de meses de convergencia entre los frontier models de OpenAI, Anthropic y Google, con diferencias estrechas en benchmarks y lanzamientos recientes (GPT-5.5, Claude 4.7, Gemini 3.5 Flash, Qwen 3.7 Max) que apuntan en la misma dirección: agentes, integraciones y flujos verticales dentro de aplicaciones reales. La capa de producto, interfaz, conectores, memoria y andamiajes que orquestan al modelo, está absorbiendo el margen que antes se capturaba vendiendo tokens vía API.

Para las startups que reempaquetan APIs sin una clara diferenciación propia, el riesgo de desintermediación crece a medida que los laboratorios lanzan productos finales sobre el mismo motor. Para los compradores corporativos, la decisión deja de ser qué modelo es mejor y pasa a ser qué proveedor funciona mejor dentro de mi flujo de trabajo completo, con qué política de datos y a qué coste por tarea.

La sentencia de 𝕏 @gdb (Greg Brockman) funciona como reconocimiento explícito de que OpenAI ya no compite vendiendo capacidad bruta, sino empaquetando ChatGPT, agentes, conectores y memoria como producto cerrado al usuario final.

𝕏 @emollick (Ethan Mollick) matiza la lectura: aunque el modelo no sea el producto, sigue siendo el motor que lo hace posible. Y añade un punto incómodo para terceros: el post-training, los andamiajes propios y el control del acceso permiten a los laboratorios construir productos que ningún otro proveedor de software puede replicar.

6. Nvidia certifica ‘skills’ de agentes

Nvidia ha presentado Nvidia-Verified Agent Skills, un mecanismo para certificar las 'skills', conjuntos portátiles de instrucciones que amplían lo que puede hacer un agente. Cada habilidad verificada queda catalogada, escaneada en busca de riesgos conocidos, firmada y documentada en una 'skill card' que detalla qué hace, de dónde viene y si ha sido modificada tras su publicación. El sistema se apoya en la especificación abierta de agentskills.io, pensada para que el mismo ‘skill’ funcione en Claude Code, Codex y Cursor. En paralelo, la compañía ha publicado el repositorio Nvidia/skills en GitHub, un catálogo con instrucciones oficiales para usar correctamente herramientas de Nvidia, sincronizado a diario desde los repos de cada producto.

Al igual que hizo con la publicación de NemoClaw, Nvidia amplía su perímetro más allá del silicio: entra en la capa de gobernanza del software agéntico justo cuando MCP y las skills portables convierten la cadena de suministro de instrucciones en un vector de riesgo comparable al de las dependencias de código abierto. Para el comprador corporativo gana el proveedor que ofrezca trazabilidad firmada de cada capacidad que ejecuta el agente.

El argumento que defiende 𝕏 @NVIDIAAI (Nvidia Ai) es que una skill hace al agente más capaz pero también amplía su superficie de ataque, así que la verificación deja de ser un sello cosmético y pasa a ser requisito previo para desplegar agentes en producción.

Desde una óptica de gobernanza y cumplimiento, 𝕏 @GlenGilmore (Glen Gilmore | #Aiweek26) subraya que Nvidia encuadra el lanzamiento como 'capability governance', un término que conecta directamente con las exigencias de auditoría que ya asoman en la regulación europea y estadounidense.

Más información:

📎 NVIDIA-Verified Agent Skills Provide Capability Governance for AI Agents | NVIDIA Technical Blog

7. Gemini suma CapCut y apps de servicios

Google ha ampliado las conexiones de Gemini en dos frentes esta semana. ByteDance y Google han confirmado que las herramientas de edición de imagen y vídeo de CapCut se integrarán dentro de la app de Gemini, de modo que el usuario pueda retocar activos sin salir del entorno conversacional. En paralelo, la cuenta oficial de Gemini ha anunciado conectores con OpenTable, Canva e Instacart, con tres casos de uso explícitos: reservar mesa, diseñar un flyer y pedir la compra. El hilo común es el desplazamiento del asistente desde la recuperación de información hacia la ejecución de tareas.

Para Google, la jugada refuerza la idea de Gemini como capa única que orquesta creatividad, productividad y comercio sobre apps de terceros, en competencia directa con los conectores de ChatGPT y con Apple Intelligence. Para las plataformas verticales abre un dilema conocido: exponer APIs al asistente generalista para no perder transacciones, o defender la relación directa con el usuario.

Para 𝕏 @capcutapp (Capcut) la lectura es de distribución: meter sus herramientas de edición en Gemini les da acceso a una base conversacional que no pasaría por su app móvil.

𝕏 @MustafyOf (Mustafy | Ai Video Creator) propone un encuadre más ambicioso que el comunicado oficial: ve a Google convirtiendo Gemini en un espacio de trabajo creativo, no en un asistente con plugins, lo que cambiaría la categoría del producto.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Discusión sobre este post

Por supuesto, sigue adelante.