Claude Fable 5 sobresale en desarrollo de software

Lidera todos los benchmarks de código y coincide con la percepción de los profesionales.

jun 12, 2026

¿Qué pasó ayer? En un minuto:

Claude Fable 5 se afianza como el mejor modelo para el desarrollo de software, encabeza APEX-SWE con un 65,5%.
Anthropic retira el carácter invisible de un mecanismo que limitaba sin avisar las peticiones ligadas al desarrollo de modelos de frontera en Claude Fable 5.
OpenAI compra Ona para que Codex ejecute tareas largas en la nube de forma segura y aunque el usuario cierre el portátil.
Gemini Omni se sitúa primero en el Video Arena con 158 puntos sobre el anterior modelo de Google, Veo 3.1.
Recursive, la empresa de Richard Socher, ya usa IA para mejorar su propia investigación, la automejora recursiva, con resultados que apuntan a más eficiencia de entrenamiento, no a un salto de capacidad.
La alemana NEURA Robotics ha captado 1.400 millones de dólares con una rara coalición de capital tecnológico, industrial y público europeo.
Google DeepMind lleva TacticAI a un club de fútbol en activo: Palmeiras será el primero en usarlo para anticipar dinámicas de juego en los corners hasta ocho segundos antes.
Los racks de GPU camino de los 400 kW desbordarán a los centros de datos existentes y presionarán aún más la red eléctrica.
Google DeepMind abre una convocatoria de hasta 10 millones de dólares para estudiar qué ocurre cuando millones de agentes de IA interactúan entre sí.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Y si tienes más de un minuto…

1. Claude Fable 5 líder claro en programación

Claude Fable 5, el modelo para usuarios no privilegiados de Anthropic dentro de la familia Mythos 5, está fijando un perfil claramente orientado al desarrollo de software. Anthropic lo presenta con resultados en benchmarks de programación como SWE-bench Pro y comparativas frente a GPT-5.5 de OpenAI y Gemini 3.1 Pro de Google. A esas cifras se suman demostraciones que circulan estos días y que confirman la misma percepción por parte de los programadores. El telón de fondo es una competencia cada vez más estrecha en modelos para ingeniería, con Anthropic, OpenAI y Google empujando en paralelo.

El énfasis en código tiene una contrapartida: un sector del debate sostiene que esa especialización puede restar versatilidad en otras tareas, un dilema clásico entre rendimiento estrecho y amplitud. Anthropic intenta ampliar su catálogo con productos como Claude Design, orientado al diseño colaborativo. APEX-SWE, el benchmark de ingeniería de software real de Mercor donde Fable 5 figura primero, le atribuye un 65,5%, una métrica todavía lejos de saturar la tarea. El modelo ya está disponible a través de Microsoft Foundry y llegará también a GitHub Copilot; Cognition lo ha incorporado a Devin.

El sobreajuste de Claude a la generación de código, según 𝕏 @pmddomingos (Pedro Domingos), abre hueco a otros fabricantes: un modelo que gana en programación pero pierde amplitud deja terreno a propuestas más equilibradas.

Desde el lado empresarial, 𝕏 @levie (Aaron Levie) sostiene que las mejoras de Fable no se limitan al código: en el Box AI Complex Work Eval, frente a Opus 4.8, dice haber visto avances en precisión y éxito también en trabajo de conocimiento complejo.

Más escéptico, 𝕏 @tunguz (Bojan Tunguz) rebaja el entusiasmo: lo ve como un buen modelo de programación, pero solo eso, con un techo de ambición que no pasaría de la tecnología de principios de los 2000.

El caso de 𝕏 @javilopen (Javi Lopez) ilustra el uso práctico: recuperó un mapa que hizo hace 28 años para Quake II y, con ayuda de Fable, consiguió renderizarlo y ejecutarlo en el juego original, un ejemplo de reactivación de software heredado.

𝕏 @emollick (Ethan Mollick) detecta límites en los modelos de frontera: en una prueba de traducción, tanto GPT-5.5 Pro Extended como Claude 5 Fable Max se resisten a cambiar el número de palabras aunque encaje mejor, un sesgo que aflora al pedirles que actúen como traductores.

2. Anthropic rectifica las salvaguardas de Claude Fable 5

Anthropic ha dado marcha atrás en una de las políticas más controvertidas de Claude Fable 5, su modelo más potente y la versión de consumo de Mythos 5. Según un artículo de Wired recogido por Simon Willison, la compañía retira el carácter invisible de un mecanismo que detectaba peticiones ligadas al desarrollo de modelos de frontera y reducía su eficacia sin avisar al usuario. La política figuraba en la tarjeta de sistema del modelo y levantó críticas entre investigadores y profesionales de ciberseguridad. En su rectificación, Anthropic admite un error de equilibrio y pide disculpas. Desde esta semana, las peticiones marcadas pasan de forma visible a un fallback al modelo Opus 4.8, el mismo método que ya aplica a contenidos de ciberseguridad y biología.

En la API, cada petición bloqueada devuelve un motivo de rechazo. La categoría de rechazos para investigación en LLM de frontera se mantiene: solo desaparece su invisibilidad, no la restricción. Anthropic justifica la opción inicial alegando que las salvaguardas visibles pueden sortearse, por lo que necesitaba más tiempo para hacerlas robustas. Datos de evaluación con el fallback desactivado y los rechazos contados como cero sitúan las tasas de rechazo cerca del 100% en MMLU de Biología y Salud y del 100% en ProgramBench.

Para 𝕏 @DotCSV (Carlos Santana), el giro hacia un fallback visible a Opus 4.8 no es la solución ideal, pero supone una mejora clara frente a sabotear sin aviso al usuario que emplee Fable para investigar IA.

𝕏 @emollick (Ethan Mollick) sostiene que ambas cosas son ciertas: partes de Anthropic temen sinceramente el mal uso de los modelos clase Mythos y han impuesto salvaguardas excesivas, pero no han logrado explicar ni convencer de ello al público.

𝕏 @DavidSacks (David Sacks) reivindica su aviso de hace meses sobre lo que llama una estrategia de captura regulatoria de Anthropic basada en el miedo, una lectura que considera ahora más extendida tras la polémica.

𝕏 @pmddomingos (Pedro Domingos) da la vuelta al discurso de seguridad con una pulla: el problema no es alinear la IA, sino alinear a la propia Anthropic.

3. OpenAI compra Ona para reforzar Codex

OpenAI ha movido varias piezas alrededor de Codex, su agente de programación. La más relevante es la compra de Ona, una plataforma de ejecución segura en la nube. Su tecnología pasa al equipo de Codex para sostener tareas de larga duración que sigan corriendo aunque el usuario cierre el portátil, y para que las empresas desplieguen agentes en producción con más control. La operación encaja con una base citada de unos cinco millones de usuarios de Codex y con una prioridad declarada: sacar los agentes autónomos del laboratorio y llevarlos a entornos de trabajo reales.

En paralelo, la compañía ajusta la gestión de cuotas. Desde esta semana, los usuarios pueden guardarse los reinicios de sus límites de uso y gastarlos cuando les convenga, en lugar que se gestionen automáticamente. El despliegue es progresivo y arranca con los planes Go, Plus, Pro y Business, cada uno con un reinicio gratuito inicial. Se suma una campaña de referidos durante dos semanas: quien tenga ChatGPT Plus o Pro puede invitar hasta a tres personas, y ambas partes reciben un reinicio extra cuando el invitado envía su primer mensaje.

El valor de Ona, según 𝕏 @WesRoth (Wes Roth), está en que su ejecución segura permitirá a Codex asumir trabajos largos incluso con el portátil cerrado, un cambio de fondo en cómo opera el agente.

𝕏 @gdb (Greg Brockman) enmarca la incorporación de Ona en torno a un objetivo concreto: ayudar a las organizaciones a desplegar agentes con seguridad en producción, no solo en pruebas.

La competencia se nota en el mismo terreno: 𝕏 @MicrosoftAI (Microsoft Ai) anuncia que MAI-Code-1-Flash ya llega al 100% de los suscriptores de GitHub Copilot en VS Code, con el despliegue de Copilot CLI en camino.

𝕏 @OpenAI (Openai) plantea la campaña de referidos como incentivo de doble vía, vinculando la captación de nuevos usuarios directamente a su mecánica de reinicios de uso.

4. Gemini Omni Flash encabeza la generación de vídeo

Google ha colocado Gemini Omni Flash, su nuevo modelo de generación de vídeo, en lo más alto de la Video Arena, la plataforma que ordena modelos según las preferencias votadas por usuarios. En texto-a-vídeo suma 158 puntos sobre Veo 3.1 (1080p), el anterior referente de la propia Google, y aventaja en 61 puntos a Seedance 2.0, el siguiente competidor. En imagen-a-vídeo empata en primer puesto, con una mejora de 77 puntos frente a Veo 3.1.

El blog de Google DeepMind presenta Gemini Omni como un sistema multimodal capaz de generar y editar vídeo desde cualquier entrada (texto, imagen, vídeo o audio), con ediciones incrementales que mantienen la coherencia de la escena, descrito como el equivalente de Nano Banana para vídeo. Logan Kilpatrick, responsable de producto de Gemini, ha adelantado que el modelo llegará pronto a desarrolladores vía API en las tres tareas: imagen-a-vídeo, texto-a-vídeo y edición.

Para 𝕏 @OfficialLoganK (Logan Kilpatrick), Gemini Omni Flash es estado del arte en imagen-a-vídeo, texto-a-vídeo y edición a la vez, y su prioridad ahora es llevarlo a los desarrolladores mediante la API.

𝕏 @vivilinsv (Vivi) lee el movimiento como un manual distinto al de la carrera de benchmarks: bajo la dirección de Kilpatrick, llegado de OpenAI, Google opta por enviar rápido, integrar en todas partes y llegar a usuarios a escala.

Desde dentro del equipo, 𝕏 @ysbhalgat (Yash Bhalgat) reivindica el primer puesto en las dos modalidades como fruto de muchas noches sin dormir, una señal del esfuerzo invertido en pulir el modelo.

Más información:

📎 Text-to-Video Leaderboard - Best AI Video Generators

5. Recursive afirma que su IA investiga sola

Richard Socher, exjefe científico de Salesforce y fundador de Recursive, afirma que su empresa ya emplea IA para realizar parte de su propia investigación en IA. El objetivo declarado es una superinteligencia recursivamente automejorable (RSI) que automatice el descubrimiento de conocimiento mediante el método científico. Socher acompaña el anuncio con resultados que, según describe, permiten obtener mejores modelos dentro del mismo presupuesto de cómputo: una mejora de eficiencia de entrenamiento, no un salto de capacidad bruta.

También cita un benchmark que mide cuánto tarda un sistema en evolucionar de un transformer básico a versiones más avanzadas, pensado para cuantificar el esfuerzo de automejora arquitectónica. El tema importa porque la automejora recursiva es uno de los conceptos más cargados del debate: sistemas que contribuyen a rediseñarse a sí mismos, asociados en teoría a aceleraciones rápidas de capacidad. Conviene separar visión de evidencia. El sector está dividido: parte de la comunidad sitúa la RSI plena en la ciencia ficción, no en producto cercano. La idea tampoco es nueva: Jürgen Schmidhuber trabajó la automejora recursiva y el metaaprendizaje en una charla de 2020, mucho antes del ciclo actual.

La apuesta de 𝕏 @RichardSocher (Richard Socher) por una superinteligencia recursivamente automejorable parte de una premisa concreta: el método científico es la mejor vía para expandir el conocimiento, y una RSI lo acelera generando mejores ideas y explicaciones de forma iterativa.

Con un escueto 'no', 𝕏 @Dan_Jeffries1 (Daniel Jeffries) descarta la automejora recursiva inminente y la sitúa en las novelas de Iain M. Banks y en Neuromancer, no en la realidad técnica actual de los agentes.

6. Capital en Europa para la robótica humanoide

La alemana NEURA Robotics habría captado 1.400 millones de dólares con una valoración cercana a los 7.000 millones, según cifras aún sin confirmar de forma oficial, para escalar la producción de robots humanoides y cognitivos. Lo relevante no es solo el importe, sino la mezcla de inversores: Tether, Qualcomm, Amazon, Nvidia, Bosch, Schaeffler y el Banco Europeo de Inversiones reúnen capital tecnológico, industrial y público europeo en torno a una empresa del continente, un terreno donde suelen dominar actores estadounidenses y asiáticos. El objetivo declarado es fabricación a escala, no investigación.

La presencia simultánea de Tether, Qualcomm, Amazon, Nvidia, Bosch, Schaeffler y el Banco Europeo de Inversiones señala, para 𝕏 @WesRoth (Wes Roth), una apuesta industrial seria por escalar producción, no un experimento de laboratorio.

Más información:

📎 NEURA ROBOTICS ANNOUNCES RECORD SERIES C OF UP TO $1.4 BILLION

7. DeepMind lleva TacticAI al fútbol con Palmeiras

Google DeepMind ha anunciado una colaboración con Palmeiras, presentado como el primer club que construye de forma seria sobre TacticAI, su sistema de análisis táctico. La herramienta simula escenarios sobre el campo y predice dinámicas de juego con hasta ocho segundos de antelación. Su núcleo son las redes neuronales de grafos: cada uno de los 22 jugadores se modela como un nodo y sus interacciones físicas como conexiones. Eso permite al departamento de ciencia de datos mover jugadores virtualmente, arrastrar y soltar, para probar planteamientos defensivos en tiempo real. TacticAI no es nuevo.

El proyecto se publicó en Nature Communications y se desarrolló con expertos del Liverpool FC, con foco inicial en córners, donde el entrenador tiene margen claro de intervención. En esa validación, las sugerencias del sistema resultaron indistinguibles de tácticas reales y se prefirieron a las existentes el 90% de las veces, según el estudio. El interés de DeepMind va más allá del deporte: un partido combina observabilidad parcial y datos multimodales, y resolver esos problemas espaciales continuos podría trasladarse a robótica y videojuegos. El acuerdo con Palmeiras supone el salto de la investigación a un equipo en activo.

El equipo de 𝕏 @GoogleDeepMind (Google Deepmind) presenta a Palmeiras como el primer club que aprovecha TacticAI de forma seria, con capacidad para anticipar dinámicas de juego abierto hasta ocho segundos antes de que ocurran.

Más información:

📎 TacticAI: an AI assistant for football tactics | Nature Communications

8. La energía limitará la infraestructura de IA

El cuello de botella de la IA se ha desplazado del silicio a la energía. Los racks de GPU de nueva generación pueden alcanzar densidades de hasta 400 kW, una cifra que los centros de datos existentes no están preparados para gestionar y que puede estrangular la red eléctrica. La potencia y la refrigeración pesan ya tanto como los chips, y parte del sector responde con generación propia al margen de la red. Un ejemplo citado es Radiant, que habría pasado de un solar a un centro de producción de IA en doce meses precisamente por evitar la dependencia con la red eléctrica.

El capital acompaña ese diagnóstico en dos frentes de los que ya hemos hablado. Por un lado, la formación de mano de obra industrial: Google.org anunció un compromiso adicional para preparar a 300.000 trabajadores estadounidenses en oficios físicos como electricistas, fontaneros, soldadores y operarios de fabricación. Por otro, la escala estatal: China prepararía un plan de 2 billones de yuanes (unos 295.000 millones de dólares) para una red nacional de infraestructura de IA.

El aviso de 𝕏 @SemiAnalysis_ (Semianalysis) invierte la jerarquía habitual: con racks camino de los 400 kW, el límite ya no es conseguir GPU sino alimentarlas, y casos como Radiant muestran que esquivar la red puede acortar a un año el salto a producción.

El compromiso de 𝕏 @sundarpichai (Sundar Pichai) une dos mundos que se suelen presentar enfrentados: la economía digital de EE. UU. descansa sobre electricistas, soldadores y operarios, y formar a 300.000 de ellos es tan estratégico para la IA como el cómputo.

9. DeepMind financia la seguridad multiagente con 10 millones

Google DeepMind ha abierto una convocatoria de investigación de hasta 10 millones de dólares para estudiar la seguridad de los sistemas multiagente. Participan Schmidt Sciences, la Cooperative AI Foundation y la Advanced Research and Invention Agency (ARIA), con apoyo de Google.org. El objeto no son los modelos por separado, sino qué pasa cuando millones de agentes creados por organizaciones distintas se comunican, negocian y transaccionan. El planteamiento es directo: de esas interacciones masivas pueden surgir comportamientos colectivos imprevistos, y hoy faltan herramientas para predecirlos, medirlos y vigilarlos. La mayoría de evaluaciones examinan un modelo aislado, un enfoque que se queda corto cuando sistemas independientes operan a través de redes diferentes.

DeepMind lo presenta como un cambio de etapa: tras una década centrada en hacer los modelos individuales más capaces y seguros, la atención pasa al nivel de grupo. La convocatoria llega mientras el sector empuja hacia agentes autónomos en producción, con OpenAI, Anthropic y la propia Google avanzando en despliegues, lo que vuelve más urgente entender los riesgos de coordinación. Está abierta a investigadores de todo el mundo y busca financiar marcos para comprender y mitigar esos riesgos. En el material publicado, DeepMind no detalla criterios de selección, plazos ni el reparto de los 10 millones entre proyectos, datos que figurarían en la convocatoria oficial.

Para 𝕏 @GoogleDeepMind (Google Deepmind), los comportamientos colectivos pueden emerger de forma repentina cuando grandes grupos de agentes interactúan, y el momento de reforzar la estabilidad del ecosistema es desde el principio, no una vez surgidos los problemas.

Más información:

📎 Google DeepMind and partners announce multi-agent safety research funding call

Discusión sobre este post

Por supuesto, sigue adelante.