Codex evoluciona hacia agente de propósito general

Es el paso natural de los agentes de programación hacia el uso de ordenadores

may 01, 2026

¿Qué pasó ayer? En un minuto:

La actualización de Codex apunta al santo grial de convertir los agentes de IA en herramientas capaces de ejecutar cualquier tarea que hoy hacemos desde un ordenador. Word, Excel, Powerpoint dejarían de ser aplicaciones con su IA integrada y pasarían a formar parte de las herramientas de un asistente horizontal para el trabajo digital.

La programación ha sido el primer gran territorio donde los agentes han demostrado valor porque ofrece entornos estructurados, objetivos verificables y ciclos rápidos de corrección. El siguiente paso natural es trasladar esa capacidad al escritorio completo. Pero también conviene recordar que no es la primera vez que la industria promete ordenadores manejados por agentes. Las demos suelen impresionar; el uso real, con errores, permisos, interfaces cambiantes, suele frustrar. En los próximos días veremos el avance real tras esta nueva iteración.

Mientras tanto, Anthropic recuerda que la IA ya se usa como guía personal en temas sensibles. Esto exige usuarios más conscientes: un modelo puede sonar empático y seguro, pero también reforzar malas decisiones si se acepta sin criterio.

La nota más esperanzadora llega desde la clínica Mayo. La detección precoz de cáncer de páncreas mediante IA, antes de que ningún especialista lo pueda diagnosticar, muestra un potencial enorme: salvar vidas y reducir costes sanitarios.

Y si tienes más de un minuto…

Codex se actualiza con nuevas capacidades

OpenAI ha actualizado Codex para convertirlo en una herramienta de productividad horizontal. La nueva versión permite seleccionar roles de trabajo, conectar aplicaciones externas y ejecutar tareas en lenguaje natural: documentos, presentaciones, hojas de cálculo, investigación y planificación. Dos novedades técnicas concretan el salto. La primera es Computer Use, que permite al agente operar el ordenador de forma autónoma y que, según datos internos del anuncio, ejecuta ciertos flujos de trabajo un 42% más rápido. La segunda es Chronicle, una función de memoria pasiva que registra la actividad del usuario y amplía la utilidad del agente más allá de tareas puntuales. El movimiento sitúa a OpenAI frente a Anthropic, que lleva meses desarrollando su propia función Computer Use en Claude aunque sin una adopción relevante.

Para 𝕏 @gdb (Greg Brockman), Codex ya no tiene restricciones de perfil ni de tipo de tarea: lo describe como una herramienta para cualquier persona y cualquier trabajo hecho con un ordenador, definición que equivale a un agente horizontal sin segmento fijo.

𝕏 @DotCSV (Carlos Santana) subraya el paralelismo con Anthropic y apunta que Codex sigue el mismo camino que Claude hacia una plataforma agéntica de trabajo general, con dominios que ya incluyen finanzas, diseño y marketing además de programación.

Anthropic publica un estudio sobre el uso de Claude como guía personal

Anthropic acaba de poner cifras a uno de los usos más sensibles de la IA generativa: pedir consejo personal. En un análisis con preservación de privacidad sobre una muestra aleatoria de un millón de conversaciones, la compañía detectó que alrededor del 6% de los intercambios no buscaban solo información, sino orientación sobre qué hacer a continuación. Más de tres cuartas partes de esas consultas se concentraban en cuatro ámbitos: salud y bienestar, carrera profesional, relaciones y finanzas personales. Esto confirma que los asistentes de IA ya están entrando en decisiones de alto impacto cotidiano, desde aceptar un empleo hasta gestionar vínculos personales o dilemas económicos.

La conclusión es que los modelos frontera no deben únicamente responder mejor, sino saber cuándo no complacer al usuario. Anthropic identifica la “adulación” o exceso de complacencia como un riesgo específico: apareció en el 9% de las conversaciones de este tipo, pero subió al 25% en relaciones y al 38% en espiritualidad. Para corregirlo, la compañía utilizó escenarios sintéticos de entrenamiento centrados en conversaciones relacionales difíciles, observando en Claude Opus 4.7 una reducción a la mitad de esa conducta frente a Opus 4.6 en orientación sobre relaciones. Los sistemas de IA que acompañen decisiones humanas deberán combinar empatía, franqueza, límites profesionales y diseño responsable, especialmente cuando el usuario no tiene acceso a otras fuentes de apoyo.

𝕏 @AnthropicAI (Anthropic) defiende que convertir el análisis de un millón de conversaciones reales en un impacto directo en el entrenamiento futuro de los modelos es un ejercicio de transparencia que la mayoría de laboratorios describe en teoría pero rara vez documenta.

IA detecta cáncer de páncreas tres años antes del diagnóstico clínico

Investigadores de Mayo Clinic han desarrollado un modelo de IA capaz de identificar cáncer de páncreas en tomografías abdominales rutinarias hasta tres años antes de que se produzca un diagnóstico clínico convencional. El modelo detecta cambios estructurales sutiles que escapan a la percepción humana y opera sobre exploraciones ya realizadas por otras razones médicas, sin requerir pruebas adicionales. Ese detalle importa más de lo que parece: elimina la necesidad de un cribado específico y reduce la fricción para la adopción hospitalaria. El cáncer de páncreas tiene una de las tasas de supervivencia más bajas entre los tumores sólidos precisamente porque, en la mayoría de casos, se diagnostica en fases avanzadas. Tres años de ventana cambian el escenario terapéutico de forma sustancial. Lo que separa este tipo de resultados de su impacto real en pacientes es el proceso regulatorio: los tiempos de validación clínica y los estándares de aprobación varían considerablemente entre sistemas sanitarios, y ninguno de los dos anuncios ofrece plazos concretos para la integración en flujos de trabajo hospitalarios.

Para 𝕏 @WesRoth (Wes Roth), lo relevante no es solo la anticipación diagnóstica sino que el modelo actúa sobre imágenes tomadas para otras pruebas médicas, lo que convierte la detección precoz en algo viable sin infraestructura adicional.

Los tics creativos de GPT-5.5 al descubierto

GPT-5.5 tiene preferencias narrativas documentadas: faros, mapas, torres con campanas que suenan a horas imposibles, el topónimo recurrente ‘Mira Vale’, catástrofes antiguas y metáforas rebuscadas con criaturas mitológicas. Claude y Gemini comparten algunos de estos rasgos, en particular el gusto por resonancias y ecos, lo que indica que no son peculiaridades de un modelo concreto sino patrones que emergen del entrenamiento a escala. En paralelo, GPT-imagen-2 demuestra un control semántico fino al producir cuadrículas de 5x5 en imágenes. Los dos hallazgos apuntan en direcciones distintas. En texto, los modelos convergen hacia arquetipos comunes que los hacen reconocibles sin herramientas especializadas. Es como la personalidad del modelo. En imagen, ese mismo control semántico abre posibilidades reales para diseño y narrativa visual profesional. El detalle más relevante para quienes trabajan en detección de contenido generado es la estabilidad de estos patrones a lo largo del tiempo: si los tropos se repiten entre versiones, constituyen una huella aprovechable para detectar el origen del contenido.

Ante la oleada de demostraciones, 𝕏 @sama (Sam Altman) se limitó a escribir ‘artificial goblin intelligence: achieved’, un guiño a la comunidad técnica que indirectamente ha influido en la preferencia de su modelo por esta criatura.

Código abierto en IA: el reto regulatorio sin respuesta

Regular la inteligencia artificial es más manejable cuando los modelos los desarrollan y sirven un puñado de empresas identificables. Con modelos de código abierto, esa lógica se rompe: cualquier organización o individuo puede descargar, modificar y desplegar un modelo como Llama o los de Mistral, lo que fragmenta la responsabilidad entre miles de actores dispersos. Los marcos regulatorios tradicionales no están diseñados para ese escenario. La tensión se vuelve concreta con las investigaciones abiertas por el ‘House Homeland Security Committee’ y el ‘House China Select Committee’ a Airbnb y Anysphere, la empresa detrás de Cursor. Según documentos revisados por Semafor, ambos comités enviaron cartas formales a los CEOs solicitando información sobre su uso de modelos de origen chino. Anysphere construyó su modelo Composer 2 sobre Kimi, de Moonshot AI (Pekín); Airbnb recurrió a Qwen, de Alibaba, para un agente de atención al cliente. Los comités citan riesgos de seguridad nacional y posibles vulnerabilidades ocultas. El caso expone una disyuntiva sin salida limpia: una regulación estricta sobre el código abierto concentraría aún más el mercado en los grandes laboratorios propietarios; una regulación laxa dificulta el control de usos problemáticos. Ninguna de las dos opciones está resuelta, y el Congreso de Estados Unidos acaba de convertir esa ambigüedad en un expediente formal.

Para 𝕏 @emollick (Ethan Mollick), la asimetría es estructural: regular modelos propietarios servidos por pocas empresas grandes es relativamente directo, pero extender esa lógica a modelos de código abierto distribuidos entre actores descentralizados no tiene un mecanismo obvio. Anticipa que esa brecha se convertirá pronto en un debate político de fondo.

𝕏 @Dan_Jeffries1 (Daniel Jeffries) enmarca las investigaciones del Congreso como un intento de restringir el código abierto en beneficio de los grandes laboratorios propietarios, y señala a Cursor como ejemplo concreto de negocio que perdería la capacidad de hacer ajuste fino sobre modelos base para reducir costes y mejorar rendimiento.

Un chatbot de IA mejora la salud mental en ensayo clínico

Un ensayo clínico aleatorizado realizado en mujeres en México ha medido el efecto de un chatbot terapéutico de IA sobre la salud mental durante seis meses. Los resultados muestran una mejora de 0,3 desviaciones estándar, un tamaño de efecto que en psicología clínica se considera equiparable al de intervenciones presenciales de baja intensidad. El estudio también detectó mejoras en calidad del sueño, conductas saludables, funcionamiento diario y resultados laborales, sin aumento de casos graves. Ese último punto importa: la principal objeción ética a la IA en salud mental ha sido siempre el riesgo de daño, y aquí no aparece. El peso del dato viene del método. El ensayo aleatorizado es el estándar más exigente en investigación médica, y en salud mental digital los productos comerciales se multiplican mientras los estudios rigurosos escasean. Para sistemas sanitarios con déficit estructural de profesionales, la relación coste-beneficio es difícil de ignorar. Lo que este ensayo no resuelve es su alcance real: la muestra es específica, y no hay datos sobre si los resultados se sostienen en hombres, en otras poblaciones o en contextos con mayor acceso a atención presencial. Reguladores, aseguradoras y responsables de salud pública tienen ahora evidencia sólida para el debate, pero el marco de supervisión clínica y los criterios de derivación a profesionales siguen sin definirse.

Para 𝕏 @emollick (Ethan Mollick), el ensayo combina dos atributos poco frecuentes a la vez: impacto clínico demostrable y coste bajo. Lo califica de argumento concreto para la adopción en sistemas sanitarios con recursos limitados.

Stripe crea una cartera de pagos para agentes de IA

Stripe ha lanzado Link Wallet for Agents, una extensión de su cartera digital Link pensada para que agentes de inteligencia artificial puedan ejecutar compras de forma autónoma sin exponer las credenciales de pago reales del usuario. Ese último punto es el núcleo del producto: el agente opera con permisos delegados, no con acceso directo a los datos financieros. Link parte con más de 250 millones de usuarios registrados, una base de distribución que ningún competidor directo en este segmento tiene de entrada. El lanzamiento llega cuando OpenAI, Anthropic y Google aceleran el desarrollo de agentes capaces de actuar en internet con autonomía creciente, y el pago autónomo sigue siendo uno de los problemas sin resolver en esos sistemas: cómo completar una transacción sin que el usuario intervenga ni asuma riesgo de exposición de datos. Stripe lleva años siendo infraestructura de facto para startups y empresas de software; este producto intenta replicar ese papel en la economía de agentes antes de que los propios laboratorios de IA o plataformas rivales fijen sus propios estándares. Lo que el lanzamiento no aclara es qué modelo de responsabilidad se aplica cuando un agente ejecuta una transacción errónea, ni cómo se gestionarán los límites de gasto y los permisos de forma granular.

Para 𝕏 @WesRoth (Wes Roth), la clave no es solo técnica sino de posicionamiento: Stripe entra en la infraestructura de la economía agéntica con 250 millones de usuarios ya existentes, una ventaja de salida difícil de replicar desde cero.

Biohub destina 500 millones a modelos celulares con IA

Chan Zuckerberg Biohub ha lanzado la Virtual Biology Initiative con un compromiso de 500 millones de dólares para construir modelos de IA predictivos de la célula humana: sistemas capaces de simular el comportamiento celular con suficiente fidelidad como para anticipar mecanismos de enfermedad y orientar el desarrollo de terapias. No es la primera gran apuesta de Mark Zuckerberg y Priscilla Chan en biomedicina: Chan Zuckerberg Initiative ya había comprometido miles de millones a la erradicación de enfermedades. Este paso, sin embargo, es más específico. Apunta a la biología computacional como infraestructura científica, con la premisa de que la IA puede comprimir décadas de investigación experimental. Un gemelo digital de la célula suficientemente preciso reduciría la dependencia de la experimentación in vitro e in vivo en fases tempranas, abarataría el descubrimiento de dianas terapéuticas y abriría la puerta a simulaciones de respuesta individual a fármacos. El obstáculo de fondo no es computacional: construir ese modelo exige datos biológicos a una escala y calidad que todavía no existen de forma consolidada. La distribución interna del presupuesto, cuánto va a generación de datos, cuánto a desarrollo de modelos y cuánto a infraestructura, será determinante para saber si la iniciativa produce herramientas científicas transferibles o se queda en investigación de frontera sin adopción clínica a corto plazo.

Para 𝕏 @WesRoth (Wes Roth), la escala del compromiso, 500 millones orientados a un objetivo tan específico como modelar la célula humana, convierte esta iniciativa en una de las apuestas más ambiciosas de la convergencia entre IA y biociencias, con potencial directo sobre farmacéutica, diagnóstico y medicina personalizada.

𝕏 @snakajima (Satoshi Nakajima @Mulmocast) subraya el carácter fundacional del proyecto: no se trata de aplicar IA a datos biológicos existentes, sino de construir desde cero un modelo celular predictivo, lo que sitúa a Biohub en un terreno científico sin hoja de ruta establecida.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Discusión sobre este post

Por supuesto, sigue adelante.