Anthropic lanza Claude Fable 5 entre elogios y polémica

El modelo es el mismo que el esperado Mythos pero cuenta con importantes restricciones de seguridad.

jun 10, 2026

¿Qué pasó ayer? En un minuto:

Anthropic lanza Claude Fable 5, su modelo de la familia Mythos excepcional en programación, y con la polémica por las restricciones de uso y una degradación invisible del rendimiento sin aviso.
Google lanza Gemini 3.5 Live Translate, un modelo de traducción de voz a voz en tiempo real para más de 70 idiomas que mantiene ritmo y entonación de la voz original.
Copiar una nueva funcionalidad es tan difícil como crearla, lo que abre una protección para startups de IA como Lovable, Cursor o Harvey antes de que los grandes laboratorios decidan replicarlas.
SpaceX presenta AI1, un satélite pensado para procesar cargas de IA en órbita, con energía solar continua y refrigeración por radiador líquido.
Claude Code ya permite agentes anidados con un tope inicial de cinco niveles de profundidad para repartir el contexto entre sesiones distintas.
Anthropic: la IA avanza más en programación que en biología porque las bases de datos y herramientas biológicas no se diseñaron para sistemas automáticos.
Cognition lanza FrontierCode, un benchmark de código más exigente ante la saturación de los existentes: Claude Fable 5, apenas llega al 29,3%.
Apple Intelligence contara con un modelo para ejecutar en local de 20B de parámetros, reservado al hardware con 12 GB de RAM.
SemiAnalysis cuestiona el discurso de la IA local: servir tokens es un negocio de escala, y un portátil no compite con la economía de un centro de datos.

IIA Summit — Para más información, pincha aquí.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Y si tienes más de un minuto…

1. Anthropic lanza Claude Fable 5 entre elogios y polémica

Anthropic ha lanzado Claude Fable 5, un modelo de la familia Mythos disponible en Claude Code y en su herramienta Cowork. Lo presenta como su mayor avance desde Opus 4.5: menos prompts y correcciones, menor gasto de tokens, mejor código, autoverificación y contextos más largos, clave para sostener tareas largas sin acumular errores. Algunos usuarios reportan ejecuciones autónomas de nueve a doce horas, aunque estas afirmaciones proceden de personas vinculadas a Anthropic o de probadores beta, no de benchmarks independientes.

El lanzamiento tiene condiciones: el acceso a Fable 5 por suscripción se retirará 22 de junio, acotando el margen de experimentación. En cualquier caso seguirá disponible via API, con un coste por millón de tokens que dobla al de su predecesor. En paralelo, la compañía anuncia que también distribuirá Claude Mythos 5, el mismo modelo pero sin restricciones, a defensores de ciberseguridad y proveedores de infraestructura en el marco del proyecto Glasswing.

Este nuevo modo de despliegue selectivo llega rodeado de polémica. Usuarios de Fable denuncian que tareas legítimas (auditar el propio repositorio, investigación en aprendizaje automático) quedan bloqueadas con avisos de suspensión, algo que con la versión Mythos no ocurriría. Más grave es el método: varios describen una degradación sin avisar, con caídas de rendimiento o cambios de modelo (a Opus 4.8) a mitad de tarea. Que los guardarraíles de Fable limiten el uso legítimo del modelo más potente lanzado hasta la fecha, choca con el discurso de IA segura de Anthropic, y parte de la comunidad lo interpreta como una maniobra competitiva y no de seguridad. El resultado es un producto técnicamente puntero cuya credibilidad se erosiona por opacidad y restricciones.

Para 𝕏 @bcherny (Boris Cherny), de Anthropic, Fable es el mejor modelo que ha usado para programar por un margen amplio, con menos correcciones manuales y un uso más eficiente de tokens como argumentos centrales.

𝕏 @Suhail (Suhail) acepta que un modelo rechace peticiones y asuma las consecuencias, pero considera inaceptable la degradación silenciosa: capar capacidades sin avisar al usuario le parece la peor parte de la política.

Para 𝕏 @tunguz (Bojan Tunguz), el discurso de seguridad y responsabilidad de Anthropic empieza a parecer postureo más que un compromiso real, una sospecha que extiende a su forma de tratar a los usuarios.

𝕏 @DotCSV (Carlos Santana) defiende parte del enfoque (durante meses faltó cómputo para lanzarlo y el modelo ataca justo esos riesgos), pero reconoce que limitar de forma invisible, sin avisar, le parece excesivo frente a las salvaguardas explícitas de química o biología.

𝕏 @giffmana (Lucas Beyer (Bl16)) lee las restricciones en clave competitiva: una cláusula para que las grandes empresas no alcancen a Anthropic mientras siguen pagando, e ironiza con que acelerar su pipeline difícilmente sea un riesgo de seguridad.

Más información:

📎 Claude Fable 5 and Claude Mythos 5

2. Google estrena Gemini 3.5 Live Translate

Google ha lanzado Gemini 3.5 Live Translate, un modelo de audio para traducción de voz a voz en tiempo real con soporte para más de 70 idiomas. La diferencia frente a los sistemas por turnos, que esperan a que el hablante termine, está en el procesamiento continuo: traduce el habla mientras se transmite y conserva entonación, ritmo y tono de la voz original. Google sostiene que el desfase se mantiene en pocos segundos durante toda la sesión, equilibrando la espera de contexto con la sincronía con el interlocutor.

Los desarrolladores acceden ya en preview pública mediante la Gemini Live API y Google AI Studio. Las empresas entran en preview privada este mes a través de Google Meet. El público general lo recibe en la app de Google Translate para Android e iOS. La escala del terreno ayuda a situar la apuesta: Google traduce más de un billón de palabras al mes en sus productos, según sus propias cifras. El lanzamiento encaja con la línea de producto de Gemini: integrar en todo el ecosistema y alcanzar a usuarios masivos, en lugar de competir solo en benchmarks. La detección de idioma es automática, sin selección manual previa. La traducción de consumo en Translate requiere conectar auriculares para la conversación en directo.

𝕏 @testingcatalog (Ai News | Testingcatalog) pone el foco en la baja latencia como argumento central, y apunta que la disponibilidad en preview vía AI Studio y APIs permite probarlo antes de que llegue a Meet.

𝕏 @WesRoth (Wes Roth) sitúa el salto en la fluidez sin pausas largas, y detalla el flujo real de uso: pulsar 'Live translate' en Google Translate y conectar auriculares.

𝕏 @JeffDean (Jeff Dean) enmarca el lanzamiento en el recorrido largo de Google en traducción por voz, como continuidad de una de las líneas de aprendizaje automático más antiguas de la casa.

𝕏 @vivilinsv (Vivi) lee la jugada en clave estratégica: Kilpatrick, que dejó OpenAI para liderar producto en Gemini, apuesta por enviar rápido e integrar en todas partes en lugar de pelear la guerra de los benchmarks.

Más información:

📎 Gemini 3.5 Live Translate is here

3. Las startups de IA resisten a los labs

El debate sobre la defensibilidad de las startups de IA ha vuelto al primer plano por una tesis difundida en X: la dificultad técnica de construir funciones realmente nuevas actúa como barrera frente a las grandes plataformas de modelos. El argumento parte de una observación práctica. Copiar una función no es trivial, porque exige entender si funciona y por qué, un análisis que consume mucho tiempo. La imitación solo resulta fácil cuando un producto ya ha demostrado tracción masiva, momento en el que la startup imitada ya ha consolidado un negocio de gran escala.

De ahí la idea de una ventana de protección ligada al tamaño: productos como Lovable (plataforma de IA y no-code para crear apps y webs), Cursor (editor de código con IA) o Harvey (IA legal) podrían crecer hasta valoraciones muy altas antes de que a los grandes laboratorios les compense replicarlos, mientras que los competidores que no son labs reaccionan mucho antes. La discusión coincide con datos de mercado que algunos describen como una violación de la narrativa dominante: se daba por hecho que casi todo lo construido sobre modelos quedaría absorbido por los propios laboratorios.

La oportunidad de las startups, sostiene 𝕏 @gabriel1 (Gabriel), está en que nadie copia una función nueva hasta que está probada, y para entonces ya se ha levantado un negocio enorme: ni los mejores equipos de producto del mundo replican fácilmente la innovación temprana.

4. SpaceX presenta AI1, su satélite de cómputo

SpaceX ha presentado AI1, descrito como la primera generación de su satélite de cómputo de IA. Es una plataforma para procesar cargas de IA en órbita, con paneles solares desplegables, refrigeración por radiador líquido y conectividad por enlaces láser. La idea es trasladar parte de la infraestructura de centros de datos al espacio, donde la energía solar es continua y la disipación de calor sigue reglas distintas a las terrestres. Sobre el papel, el atractivo está claro: energía abundante sin red eléctrica y un entorno sin las restricciones de suelo y agua que ya tensionan a los centros de datos en tierra.

El interés conecta con la trayectoria de SpaceX en abaratar el acceso a órbita. La reutilización de propulsores, iniciada en 2015, y el desarrollo de Starship apuntan a reducir el coste por lanzamiento, condición necesaria para que poner cómputo en el espacio salga a cuenta. La información procede de una entrevista a Elon Musk, sin cifras de potencia de cálculo, capacidad de refrigeración ni calendario de despliegue. Tampoco hay datos públicos sobre coste ni sobre cómo se gestionaría el mantenimiento o la latencia frente a usuarios en tierra. La salida a bolsa de SpaceX está muy cerca, lo cual explica que se den este tipo de anuncios.

𝕏 @WesRoth (Wes Roth) describe AI1 como una plataforma orbital con gran carga útil de cómputo, paneles solares desplegables, refrigeración por radiador líquido y enlaces láser para la conectividad.

Para 𝕏 @ARKInvest (Ark Invest), la ventaja de SpaceX se sostiene en la reutilización: una década separa su primer aterrizaje de propulsor (2015) del de Blue Origin (2025), y con Starship estiman recortes de coste de lanzamiento de hasta diez veces.

5. Claude Code estrena subagentes anidados

Claude Code, la herramienta de programación asistida de Anthropic, ya admite subagentes anidados: agentes que lanzan otros agentes. La función llega en la release del mismo día del anuncio, con un límite inicial de cinco niveles de profundidad (depth=5) y etiqueta de experimento abierto a comentarios. El motivo es la gestión del contexto. La ventana de contexto es uno de los cuellos de botella de estos asistentes: al delegar subtareas, la información se reparte y se aísla, cada hilo queda más enfocado y se reduce la saturación del agente principal.

El planteamiento encaja en la tendencia de sistemas multiagente y orquestación de tareas complejas, donde un flujo coordina muchos procesos en paralelo en lugar de un único hilo lineal. El coste por tokens es la otra cara: cuanto más se ramifica, más importa controlar la verbosidad de cada agente para que el gasto no se dispare. De ahí el interés paralelo por modificadores de estilo que recorten la salida sin tocar los criterios de la tarea. La etiqueta experimental y la petición explícita de feedback sitúan la capacidad en fase temprana y sujeta a cambios según el uso real.

Firma la novedad 𝕏 @bcherny (Boris Cherny), de Anthropic, que presenta los agentes capaces de arrancar otros agentes como vía para repartir el contexto y acota el experimento a cinco niveles de profundidad mientras recoge impresiones de la comunidad.

El salto operativo lo subraya 𝕏 @Fluyeporlaweb (Pa13L0): lo que antes exigía montar un pipeline a mano ahora lo resuelve Claude escribiendo él mismo el script de orquestación, con cientos de subagentes en paralelo desde un solo flujo.

Desde el ángulo del gasto, 𝕏 @arceyul (Arc.) propone dejar de quemar tokens en Claude Code combinando selección de modelo, prompts eficientes y memoria persistente que conserva el contexto entre sesiones.

6. Anthropic atribuye el retraso en biología a las herramientas

Anthropic ha publicado un blog científico sobre por qué la inteligencia artificial progresa más rápido en programación que en biología. Su tesis se aparta del lugar común: el freno no estaría en la capacidad de los modelos, sino en el entorno que los rodea. Muchas bases de datos, interfaces y flujos de trabajo del ámbito biológico se diseñaron para que los manejaran investigadores humanos, no máquinas. La programación parte de un terreno más favorable: el código es texto estructurado, abundante en internet, con formatos estandarizados y verificación inmediata mediante ejecución. La biología carece de esa retroalimentación limpia. Sus datos están fragmentados, mal documentados o encerrados en herramientas pensadas para el criterio de un experto, lo que complica que un modelo opere solo sobre ellos.

El argumento desplaza el foco desde la potencia bruta hacia la infraestructura: un modelo competente rinde poco si trabaja sobre datos que no puede leer ni comprobar con facilidad. La consecuencia práctica es que acelerar la IA en biotecnología pasaría por rediseñar ese ecosistema de datos y herramientas, no solo por entrenar modelos mayores. El texto encaja con el interés declarado de Anthropic por la investigación científica, área donde distribuye versiones de Claude con salvaguardas reforzadas a grupos reducidos de biología, diseño de fármacos y genómica. El blog presenta el argumento de forma cualitativa, sin métricas comparadas entre ambos dominios ni propuestas concretas de implementación.

Para 𝕏 @WesRoth (Wes Roth), el mensaje central del blog es que el cuello de botella no es la inteligencia del modelo sino el ecosistema de herramientas, construido para expertos humanos y no para la era de la IA, lo que sitúa la infraestructura biológica como la variable a corregir.

Más información:

📎 Paving the way for agents in biology

7. FrontierCode mide el código que sí integrarías

Cognition ha presentado FrontierCode, un benchmark de programación con un criterio distinto al habitual. Donde herramientas como SWE-Bench comprueban si el código se ejecuta y pasa los tests, FrontierCode pregunta si un mantenedor aceptaría ese código en su repositorio. Cada tarea fue diseñada por más de 20 mantenedores de proyectos de código abierto, repartidos en 36 repositorios, y cada una requirió más de 40 horas de trabajo: una semana laboral completa de un ingeniero con experiencia. La evaluación no se limita a la corrección funcional; también pondera la calidad del resultado.

Las cifras son deliberadamente duras. El reciente lanzamiento de Claude Fable 5 encabeza la tabla con un 29.3%, más del doble que Claude Opus 4.8, también de Anthropic, con un 13,4%, y más del doble que GPT-5.5, que se queda en un 6,3%. Gemini 3.1 Pro obtiene un 4,7%, y el resto puntúa por debajo. Ese rango contrasta con las saturaciones cercanas al 70-80% que los modelos punteros ya alcanzan en benchmarks más antiguos, donde el margen se ha estrechado hasta volverlos poco informativos. Un test difícil vuelve a separar a los modelos en la parte alta de la curva.

El dato que destaca 𝕏 @daniel_mac8 (Dan Mcateer) es la distancia entre modelos: que Opus 4.8 más que duplique a GPT-5.5 indica que estas tareas ultradifíciles vuelven a discriminar entre sistemas que en otros tests aparecen casi empatados.

Para 𝕏 @DataScienceDojo (Data Science Dojo), el cambio de criterio es lo decisivo: pasar del 'pasa los tests' al '¿lo integrarías?' acerca el benchmark a cómo se evalúa el trabajo real de un ingeniero.

𝕏 @VaibhavSisinty (Vaibhav Sisinty) lo describe como el test más honesto construido hasta ahora, precisamente porque deja de premiar el código que solo se ejecuta y expone lo lejos que están los modelos del listón de producción.

8. Apple lanza un modelo en local de 20B

Apple ha incorporado a sus Apple Foundation Models un modelo on-device de 20.000 millones de parámetros, según filtraciones y desarrolladores que han examinado su funcionamiento. La compañía mantiene un modelo base de 3.000 millones para el grueso de dispositivos y reserva el de 20.000 millones al hardware con 12 GB de RAM: iPhone 17 Pro y Air, iPad Pro M4 y Macs con chip M3.

El interés está en cómo Apple sortea una restricción física evidente: un modelo de ese tamaño no cabe en memoria a una precisión razonable. La solución es una arquitectura de mezcla de expertos poco habitual. Un modelo pequeño anticipa, a partir de la consulta, qué expertos cargar, de modo que solo una fracción de los pesos llega a memoria en cada petición. Con ello Apple intenta equilibrar tres limitaciones a la vez: el tamaño acotado de la DRAM, el peso del modelo y la lentitud de lectura de la NAND.

El mérito, para 𝕏 @awnihannun (Awni Hannun), está en lo que Apple ha tenido que improvisar: 20.000 millones de parámetros no caben en RAM a una precisión decente, así que recurren a una arquitectura exótica donde un modelo pequeño decide qué expertos cargar a partir del propio prompt.

El reparto de memoria es la clave del diseño según 𝕏 @zephyr_z9 (Zephyr): atención compartida en la DRAM y pesos feed-forward en la NAND, cargados según la petición, una forma de lidiar a la vez con DRAM limitada, modelo grande y lectura lenta de la NAND.

Frente a la confusión habitual, 𝕏 @ShishirShelke1 (Shishir) aclara que quien tenga un iPhone 15 Pro, cualquier iPhone 16 o el iPhone 17 base sigue contando con Apple Intelligence y la nueva Siri, porque conviven dos modelos on-device distintos.

Más información:

📎 Introducing the Third Generation of Apple’s Foundation Models

9. SemiAnalysis duda de la viabilidad del LLM local

SemiAnalysis, firma de análisis centrada en semiconductores e infraestructura de IA, ha publicado un hilo en X contra el discurso de la ‘IA on-device’: ejecutar modelos de lenguaje en portátiles y dispositivos personales en lugar de en centros de datos. Reconoce los argumentos habituales a favor de la inferencia local (privacidad, control y autonomía sobre los propios datos), pero los descarta por motivos económicos. Su tesis es que servir tokens es un negocio dominado por la escala, más aún que la fabricación de acero: un volumen alto reparte el coste fijo y abarata cada unidad. Bajo esa lógica, un dispositivo individual no puede competir con la economía de una instalación hiperescalar.

El argumento técnico se apoya en que las mejoras de inferencia de cada generación (óptica coempaquetada o CPO, backplanes de cobre, dominios de escalado tipo NVL de NVIDIA y avances en eficiencia medidos en picojulios por bit y rendimiento por vatio) no caben en el chasis de un portátil. La firma sostiene además que los modelos grandes son los que amplían las fronteras de capacidad, y cita Opus 4.5 de Anthropic como el que hizo viable el uso agéntico. El hilo consta de cuatro mensajes y adopta un tono irónico, con metáforas políticas.

La provocación de 𝕏 @SemiAnalysis_ (Semianalysis) recurre a la ironía política: ‘soberanía sobre tus tokens’ y ‘apoderarse de los medios de generación de tokens’ para describir el LLM local, antes de sentenciar que ese camino está ‘destinado a malos resultados’.

Discusión sobre este post

Por supuesto, sigue adelante.