Anthropic afirma que Claude ya acelera su propio desarrollo

El paradigma de la 'automejora recursiva' de la IA podría estar más cerca de lo esperado.

jun 05, 2026

¿Qué pasó ayer? En un minuto:

Anthropic afirma que Claude ya acelera el desarrollo de su propia IA y abre una posible vía hacia la automejora recursiva basado en cifras internas.
Arena estrena Agent Mode, que evalúa modelos en tareas agénticas reales con herramientas y varios pasos, GPT-5.5 High encabeza el raking global.
OpenAI despliega una nueva arquitectura de memoria en ChatGPT, más eficiente en cómputo y con un resumen editable.
Paul Graham suma una pregunta a sus fundadores: ¿la empresa sobreviviría si las IAs hicieran casi todo el trabajo? Y da su receta para defenderse.
David Sacks señala la contradicción de los grandes laboratorios de IA que alertan de un riesgo existencial mientras aceleran sin freno: piden al Estado que los regule o incluso los nacionalice.
Según datos de CloudFlare Radar el tráfico de agentes de IA ya superaría al humano en páginas web HTML a escala mundial.
Según filtraciones, OpenAI prepara una única aplicación de escritorio que reúna ChatGPT, Codex y Atlas, y refuerza Codex con un plugin para desarrollo iOS.
Sakana AI quiere construir el primer modelo japonés frontera, diseñado como agente y orientado a investigación. Cuenta con el respaldo del gobierno japonés.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Y si tienes más de un minuto…

1. Anthropic dice que Claude ya acelera su propio desarrollo

Anthropic ha publicado 'When AI builds itself', un informe de su instituto que sostiene que Claude está acelerando el desarrollo de la propia IA. La compañía dice que ya delega una parte creciente de su ciclo de desarrollo en sus modelos y plantea una vía hacia la automejora recursiva: un sistema capaz de diseñar y construir de forma autónoma un modelo sucesor más capaz. Anthropic insiste en que eso aún no ha ocurrido y no es inevitable, pero advierte que podría llegar antes de que empresas, gobiernos y reguladores estén preparados.

Como dato interno, cifra en 8 veces el código que sus ingenieros integran por trimestre frente al periodo 2021-2025. Anthropic matiza que “líneas de código” no equivale automáticamente a productividad real, pero el cambio de escala es difícil de ignorar. El informe se apoya en un test recurrente que hacen a todos los nuevos modelos: pedirle que optimice código de entrenamiento de una IA pequeña, tarea que a un experto humano le lleva entre 4 y 8 horas para una mejora de 4x. Claud Opus 4 obtuvo hace un año una mejora de 3x, mientras que 'Mythos Preview' habría alcanzado recientemente unos 52x, una cifra consistente con las conclusiones sobre productividad del informe.

La lectura clave es que la productividad del trabajo de conocimiento puede multiplicarse: una plantilla pequeña podría coordinar una red de agentes capaces de programar, probar, corregir errores o ejecutar experimentos con mucha menos intervención humana. Por otro lado, el cuello de botella se desplaza: ya no será solo producir más, sino revisar, validar, asegurar y decidir qué merece la pena hacer. Anthropic reconoce que la revisión humana del código ya empieza a ser una limitación interna. La compañía también pide que los grandes laboratorios de IA estudien mecanismos coordinados y verificables para ralentizar o pausar desarrollos si los riesgos aumentan.

El propio 𝕏 @AnthropicAI (Anthropic) sostiene que el fenómeno avanza más rápido de lo que esperaban y reclama mayor atención, aunque insiste en que la automejora recursiva ni está garantizada ni depende solo de la capacidad técnica, sino también de disponer de cómputo suficiente.

Para 𝕏 @emollick (Ethan Mollick), el dato de que más del 80% del código integrado en Anthropic en mayo de 2026 lo escribió Claude coincide con mediciones independientes y no muestra señales de frenarse, aunque advierte de los retos organizativos de absorber tanta ganancia de productividad.

𝕏 @levie (Aaron Levie) lee el informe en clave optimista: el verdadero motor es la explosión de nuevas ideas, herramientas y simulaciones que surge cuando los empleados trabajan con modelos muy capaces.

𝕏 @DotCSV (Carlos Santana) resume el documento con la metáfora que ya circula en el sector: la IA agiliza la investigación y el entrenamiento de mejor IA, lo que coloquialmente se llama 'cerrar el bucle'.

𝕏 @testingcatalog (Ai News | Testingcatalog) destaca un detalle operativo poco comentado: Mythos Preview podía trabajar 'al menos' 16 horas seguidas, en el límite superior de lo que METR puede medir.

Más información:

📎 When AI builds itself \ Anthropic

2. Arena lanza Agent Mode y clasificación de agentes

Arena, la plataforma que ordena modelos de IA mediante votaciones de usuarios, ha estrenado Agent Mode, una función para probar y comparar modelos en tareas agénticas reales: las que exigen herramientas, ejecución en varios pasos y razonamiento para seguir el estado. Llega junto a Agent Arena, un sistema que mide sesiones en vivo donde personas reales completan trabajo concreto, frente a los benchmarks estáticos habituales. En este modo, los modelos disponen de búsqueda web, sistema de archivos y terminal en un entorno aislado.

La novedad importa porque evaluar agentes, y no solo respuestas de chat, es uno de los puntos débiles del sector: las pruebas sintéticas rara vez anticipan el comportamiento en escenarios reales con agentes. Arena traslada aquí su método de preferencias agregadas al terreno de los flujos de trabajo autónomos. La clasificación de agentes usa cinco señales: éxito en la tarea, capacidad de dirección, recuperación de errores, elogios frente a quejas y alucinación de herramientas. El primer ranking global sitúa a GPT-5.5 High en cabeza, seguido de Claude Opus 4.7 Thinking, GLM-5.1, Gemini 3.1 Pro y Kimi K2.6, con Nemotron 3 Ultra entre los modelos incorporados. En la métrica de tareas confirmadas como completadas, Claude Opus 4.7 (Thinking) lidera con un 7,95%, por delante de Claude Opus 4.6 (7,17%) y GPT 5.5 High (7,06%). Arena advierte de que las conversaciones y cierta información personal se comparten con los proveedores y pueden hacerse públicas, por lo que pide no introducir datos sensibles.

𝕏 @arena (Arena.Ai) enmarca el lanzamiento como un hito de comunidad: su Battle Mode original, base del proyecto, ha superado los 50 millones de votos, cifra que apuntala su modelo de evaluación por preferencias agregadas.

𝕏 @WesRoth (Wes Roth) subraya que la clasificación de agentes no se reduce a acertar la tarea: pondera dirigibilidad, recuperación de errores y alucinación de herramientas, señales más cercanas al trabajo real que un acierto aislado.

Más información:

📎 Agent Arena: Causal Evaluation of Agents in the Real World (link extraído de los tweets)

3. OpenAI rediseña la memoria de ChatGPT

OpenAI ha empezado a desplegar una nueva arquitectura de memoria en ChatGPT. El sistema conserva contexto entre conversaciones distintas y trata de mantenerlo útil con el tiempo, frente al modelo anterior, basado en notas guardadas de forma puntual. El cambio no consiste solo en recordar más. La compañía describe la arquitectura como más capaz y escalable, construida sobre una técnica que denomina 'dreaming': síntesis de memoria a partir del historial, con menor coste de cómputo.

Para el usuario, la novedad visible es un 'resumen de memoria' editable, donde puede revisar y dirigir qué detalles persisten. Es una respuesta directa a las dudas habituales sobre privacidad y control. La memoria persistente es uno de los frentes donde compiten los asistentes: reduce la repetición de información y acerca cada sesión a un perfil acumulado del usuario. El alcance es limitado por ahora. La función llega solo a usuarios Plus y Pro en Estados Unidos, con el doble de capacidad de memoria que antes. Quien prefiera el comportamiento previo puede volver a las 'memorias guardadas' clásicas desde los ajustes.

El énfasis de 𝕏 @OpenAI (Openai) en un resumen editable, donde el usuario revisa y corrige lo que el modelo retiene, sitúa el control de datos como argumento de producto, no solo como requisito de cumplimiento.

𝕏 @sama (Sam Altman) presenta la actualización como una mejora de peso ('big upgrade') y la lanza desde su cuenta personal el mismo día, un gesto que la coloca como prioridad en la hoja de producto de OpenAI.

𝕏 @testingcatalog (Ai News | Testingcatalog) recoge el detalle técnico menos comentado: la arquitectura se apoya en 'dreaming' para sintetizar memoria, lo que apunta a un sistema más eficiente en cómputo, no solo a más almacenamiento.

Para 𝕏 @WesRoth (Wes Roth), el valor está en seguir preferencias y restricciones del usuario a lo largo del tiempo, es decir, en la adaptación progresiva más que en recordar datos sueltos.

Más información:

📎 ChatGPT's upgraded memory system is rolling out to everyone. (buscado en internet)

4. Graham añade una prueba: ¿resiste a la IA?

Paul Graham, cofundador de Y Combinator, ha añadido una pregunta a las que plantea a fundadores en sus 'office hours': '¿Podemos hacer esto a prueba de IA?'. La formulación concreta es si la empresa seguiría existiendo en un escenario donde las IAs hicieran la mayor parte del trabajo. Se suma a sus criterios habituales sobre efectos de red e integración vertical ('full-stack'). Importa porque Graham marca pauta entre emprendedores e inversores, y desplaza el debate sobre defensibilidad a un terreno distinto: ya no basta con los criterios que hasta ahora han funcionado para el modelo SaaS, sino que ahora es necesario construir valor que la IA no replique con facilidad.

El consejo táctico de 𝕏 @paulg (Paul Graham) es hacer el producto útil para los agentes y dejar que interactúen entre ellos, replicando el foso de los marketplaces, aunque admite que la concentración en un solo proveedor de modelos rompería esa protección.

Hoan Ton-That, fundador y ex CEO de Clearview AI, reabre el debate sobre el impacto de la inteligencia artificial en el empleo tecnológico con una tesis clara: las herramientas de programación con IA no van a eliminar a los desarrolladores, pero sí cambiarán radicalmente qué se espera de ellos. El cambio no elimina la necesidad de talento técnico; desplaza el valor hacia el criterio. Saber qué producto construir, revisar la calidad, entender al cliente y gestionar riesgos pesará más que escribir cada línea manualmente.

Para 𝕏 @pmarca (Marc Andreessen), el argumento de que la IA no eliminará los empleos de programación coincide con lo que observa a diario en el sector, en línea con el relato de la IA como amplificadora del desarrollador.

𝕏 @Dan_Jeffries1 (Daniel Jeffries) sostiene sin matices que la IA creará más empleo del que destruya, apoyándose en la historia de la difusión tecnológica, y acusa a medios y políticos de inflar una 'crisis falsa'. Es una posición opinativa, sin datos que la respalden.

Frente a las predicciones rotundas, 𝕏 @RichardSocher (Richard Socher) recuerda que destacar en un campo no garantiza acertar al pronosticar en otros, y cita a Einstein y un texto de 1931 como aviso ante el exceso de confianza.

Más información:

📎 I Built an AI Company. Here’s Why AI Won’t Kill Coding Jobs.

5. Sacks acusa a los labs de buscar la nacionalización

David Sacks, inversor y voz del podcast All-In, ha cuestionado en X la coherencia del discurso de los grandes laboratorios de IA. Su argumento es directo: estas empresas comparan sus modelos con armas nucleares, advierten de que la tecnología amenaza la mitad de los empleos de oficina y avisan de que la automejora recursiva podría acabar con la humanidad, pero siguen acelerando el desarrollo sin pausa. La ironía que plantea es que, con esa retórica, los propios laboratorios estarían invitando al Estado a regularlos o incluso a nacionalizarlos. Piden al gobierno que los salve de sí mismos.

El comentario toca un punto sensible. La narrativa del riesgo existencial convive con una carrera comercial que no se detiene, y esa tensión alimenta sospechas sobre el uso estratégico de las advertencias de seguridad. Para algunos, dramatizar el peligro consolida la posición de los actores ya establecidos y desincentiva la competencia. Sacks ocupa además un cargo en la política tecnológica estadounidense como responsable de IA y criptoactivos de la Casa Blanca, por eso es tan importante su postura dentro del debate sobre cuánta intervención pública debe tener el desarrollo de modelos punteros.

El núcleo de la crítica de 𝕏 @DavidSacks (David Sacks) es la incoherencia: comparar la IA con las armas nucleares y advertir del fin de la humanidad mientras se acelera el desarrollo equivale, a su juicio, a reclamar que el Estado intervenga un sector que sus propias empresas no quieren frenar.

6. El tráfico de agentes supera al humano

SemiAnalysis, firma especializada en semiconductores e IA, ha difundido una afirmación basada en datos de CloudFlare Radar: el tráfico generado por agentes de IA habría superado al humano en las páginas web HTML a nivel mundial. La idea de fondo es que buena parte del consumo de contenido en la red ya no procede de personas, sino de sistemas que navegan, raspan o procesan páginas en nombre de usuarios o modelos. De confirmarse, el efecto se nota en varios frentes: monetización publicitaria, métricas de audiencia, consumo de ancho de banda y políticas de protección frente a bots.

El negocio de Cloudflare consiste precisamente en distinguir y filtrar este tipo de tráfico, lo que da credibilidad a su lectura pero también condiciona el ángulo desde el que mide. El mensaje no incluye porcentajes, ni metodología, ni el periodo exacto al que se refiere, y tampoco aclara cómo separa el 'tráfico agéntico' de la extracción web automatizada clásica, anterior a los modelos actuales. Esa distinción pesa: meter los bots de scraping tradicionales en el mismo saco que los agentes de IA infla la categoría sin describir qué ha cambiado de verdad.

El dato lo lanza 𝕏 @SemiAnalysis_ (Semianalysis) como noticia de última hora apoyándose en CloudFlare Radar, pero sin porcentajes, ventana temporal ni la metodología que permitiría calibrar el alcance real del cruce.

El matiz incómodo lo aporta 𝕏 @giffmana (Lucas Beyer (Bl16)): traducir 'tráfico agéntico' por 'tráfico de bots' recuerda que parte de ese volumen no es actividad útil ni nueva, sino la automatización de siempre con otra etiqueta.

Con un escueto 'RIP human internet', 𝕏 @tunguz (Bojan Tunguz) resume el sentimiento que circula en el sector: la red pensada para lectores humanos pierde peso frente a una diseñada para que la consuman máquinas.

7. OpenAI fusiona Codex, ChatGPT y Atlas

OpenAI estaría preparando la unificación de ChatGPT, Codex (su herramienta de codificación) y Atlas (su navegador) en una sola aplicación de escritorio, según informaciones difundidas en X. La idea es concentrar asistente conversacional, entorno de desarrollo y navegación en un único punto de acceso, eliminando los saltos entre productos y facilitando el uso de Codex, su solución de agentes. El objetivo es reducir fricción y mantener todo el flujo de trabajo en un mismo sitio, un terreno donde OpenAI compite con asistentes de programación cada vez más capaces. La fusión de las tres aplicaciones procede de filtraciones en X, no de un anuncio formal, sin fechas ni detalles de implementación confirmados.

A la vez, la compañía ha añadido a Codex un plugin llamado Build iOS Apps, que integra más fases del desarrollo de aplicaciones iOS dentro del propio entorno: permite visualizar, probar, previsualizar y recargar en caliente (hot reload) los cambios sin salir de la herramienta. OpenAI mantiene además su programa Codex for Open Source, lanzado en marzo, que ofrece a mantenedores con un GitHub activo seis meses de ChatGPT Pro (valorado en 1.200 dólares) más créditos de API, con un umbral de acceso bajo que admite proyectos pequeños y mantenedores en solitario.

El foco de 𝕏 @WesRoth (Wes Roth) está en el plugin Build iOS Apps, que lleva la previsualización y la recarga en caliente al interior de Codex como señal de que OpenAI busca cerrar el ciclo de desarrollo dentro de un único entorno.

𝕏 @polydao (Mr. Buzzoni) constata que el umbral del programa Codex for Open Source es más bajo de lo esperado: fue aceptado pese a tener un GitHub con poca actividad, lo que apunta a una captación de desarrolladores deliberadamente amplia.

Para 𝕏 @Pluvio9yte (Pluvio9Yte), el paquete de incentivos a mantenedores de código abierto (ChatGPT Pro gratis, créditos de API y revisión de seguridad con IA), sin exigir un mínimo de estrellas, confirma que OpenAI prioriza ensanchar la base de usuarios de Codex.

8. Sakana AI prepara modelo japonés de 1 billón

Sakana AI, laboratorio con sede en Tokio, ha anunciado un proyecto para construir el primer modelo japonés de 1 billón (1T americano) de parámetros. El cofundador lo presentó en el programa WBS de TV Tokyo. El modelo se concibe como agent-native y se optimiza para investigación profunda de largo horizonte: tareas que encadenan muchos pasos de razonamiento y consulta en el tiempo. Lo respalda GENIAC, la iniciativa del METI (Ministerio de Economía, Comercio e Industria de Japón) para reforzar la capacidad nacional en IA. La apuesta supone un cambio de rumbo para la empresa, que hasta ahora evitaba competir por tamaño.

Pasar a un modelo propio de 1T orientado a agentes implica más ambición en infraestructura y autonomía, y la voluntad de desarrollar un modelo frontera propio. A finales de 2025, Sakana AI está valorada en torno a 2.600 millones de dólares (¥400.000 millones), una de las cifras más altas entre las startups de IA japonesas. Desde el punto de vista estratégico, con esta iniciativa Japón elimina su dependencia de modelos frontera con EEUU o China.

𝕏 @hardmaru (Hardmaru) presenta el proyecto como un esfuerzo de soberanía tecnológica: un modelo japonés de 1T agent-native pensado para investigación de largo horizonte y respaldado por el METI, no como una carrera más por el tamaño bruto.

Discusión sobre este post

Por supuesto, sigue adelante.