Anthropic investiga por qué los LLMs rinden a propósito por debajo de sus capacidades

También estudia una técnica de alineamiento para enfrentarse mejor a imprevistos

may 06, 2026

¿Qué pasó ayer? En un minuto:

Hoy nos centramos en el alineamiento de modelos. Anthropic, que nació en 2021 tras la salida de varios directivos de OpenAI preocupados por la seguridad, ha publicado dos estudios de su programa Fellows. El primero habla de cómo un modelo puede “hacerse el tonto” cuando le conviene, simular un rendimiento inferior para evadir evaluaciones de seguridad por ejemplo. El segundo introduce una técnica para enseñar al modelo a generalizar a situaciones nuevas los valores que se quieren preservar. Son avances que refuerzan el compromiso de Anthropic con el alineamiento y la seguridad de LLMs, el motivo original de su escisión de OpenAI.

OpenAI, por su parte, empezó a desplegar GPT‑5.5 Instant como modelo predeterminado en ChatGPT. El modelo minimiza la latencia para conversaciones en tiempo real, pero no es el más capaz. La compañía afirma que la versión Instant produce un 52,5 % menos de alucinaciones y genera respuestas más directas y con un tono más natural. Por su lado, Google mostró que no basta con publicar modelos abiertos como Gemma. También hay que dotarlos de eficiencia para que sean competitivos en inferencia con modelos como DeepSeek.

Más allá de los grandes modelos, los agentes de programación generan expectativas desiguales. Andrew Ng advierte que el frontend es donde los agentes aceleran de verdad, porque dominan lenguajes y frameworks populares. En cambio, el backend y la infraestructura siguen requiriendo juicio humano.

Y si tienes más de un minuto…

Anthropic publica dos avances en alineamiento de IA

Anthropic ha publicado dos investigaciones de su programa Fellows, ambas en el repositorio público arXiv, que atacan flancos distintos del mismo problema: cómo conseguir que un modelo se comporte como se espera, incluso cuando nadie puede verificarlo del todo. La primera aborda el ‘sandbagging‘, la posibilidad de que un modelo capaz simule un rendimiento inferior durante las evaluaciones. El paper sugiere que el sandbagging no es necesariamente intratable: incluso con supervisores más débiles, un buen post-entrenamiento puede recuperar gran parte del rendimiento verdadero del modelo. Pero también muestra que las mitigaciones son frágiles: un modelo consciente de si está siendo evaluado o no, puede fingir cooperación durante entrenamiento y cambiar su comportamiento en inferencia.

La segunda investigación introduce Model Spec Midtraining (MSM), una nueva capa de entrenamiento entre el preentrenamiento y el fine-tuning de alineamiento: en lugar de enseñar solo comportamientos deseados mediante ejemplos, MSM entrena al modelo con documentos sintéticos que explican el “por qué” de su Constitución o Model Spec, buscando que generalice mejor en situaciones no vistas. El estudio muestra que dos modelos con el mismo fine-tuning posterior pueden adoptar valores distintos según el spec usado en MSM, y que la técnica reduce de forma significativa la “desalineación agentiva” en evaluaciones donde un agente podría filtrar datos o dañar a terceros para preservar sus objetivos. La técnica también permite comparar empíricamente qué tipo de especificaciones funcionan mejor, y el resultado apunta a que articular los valores que fundamentan las reglas supera a limitarse a enumerar restricciones.

La advertencia más directa de 𝕏 @AnthropicAI (Anthropic) es que, a medida que la IA asume tareas que los humanos no pueden verificar por completo, un modelo capaz podría deliberadamente contenerse sin que nadie lo detecte.

GPT-5.5 Instant llega como modelo por defecto en ChatGPT

OpenAI ha comenzado a desplegar GPT-5.5 Instant como modelo predeterminado para todos los usuarios de ChatGPT, con una transición prevista en 48 horas. El modelo cierra la migración de la familia GPT-5.5: Instant prioriza velocidad y fluidez conversacional; Thinking, el razonamiento en tareas exigentes. OpenAI describe cuatro mejoras concretas: mayor precisión, con un 52,5 % menos de alucinaciones, claridad, concisión y un tono más natural. En paralelo, amplía las capacidades de memoria y personalización: el sistema puede combinar memorias guardadas, historial de conversaciones, archivos adjuntos y datos de cuentas de Gmail conectadas. Una función llamada 'fuentes de memoria' muestra qué contexto se ha empleado en cada respuesta, lo que añade transparencia. Las mejoras de personalización llegan primero a los planes Plus y Pro en web; las fuentes de memoria se extienden a todos los usuarios. La integración con Gmail es el punto más delicado del anuncio. Conectar un asistente conversacional al correo personal eleva la utilidad, pero también la exposición a riesgos de privacidad que OpenAI no ha detallado públicamente.

Para 𝕏 @emollick (Ethan Mollick), el dato más revelador no es el lanzamiento en sí, sino que el modelo gratuito ya alcanza el nivel que solo los modelos de pago lograban hace pocos meses: un 86% en GPQA ilustra mejor que cualquier comunicado el ritmo real de avance del sector.

𝕏 @DotCSV (Carlos Santana) recomienda usar la variante Thinking siempre que sea posible, lo que sugiere que Instant, pese a ser el modelo por defecto, no es la mejor opción para tareas que requieren profundidad de razonamiento.

Gemma 4 acelera hasta tres veces con MTP

Google acelera la familia Gemma 4 con Multi-Token Prediction drafters, pequeños modelos auxiliares que aplican decodificación especulativa para proponer varios tokens futuros mientras el modelo principal los verifica en paralelo, reduciendo el cuello de botella clásico de inferencia (generar un token cada vez moviendo miles de millones de parámetros) sin cambiar la calidad final de la respuesta. La compañía afirma mejoras de hasta 3x en velocidad sin degradación de razonamiento ni precisión, con beneficios directos para asistentes de programación, agentes que requieren planificación rápida, aplicaciones conversacionales de baja latencia y despliegues locales o en dispositivo. Para Gemma 4, que compite en el segmento abierto frente a modelos como Mistral o DeepSeek, la eficiencia en inferencia pesa tanto como la calidad bruta. Hasta ahora, implementar speculative decoding requería trabajo personalizado por parte de los equipos de desarrollo; al integrar los drafters directamente en la familia, Google elimina esa fricción. El soporte en vLLM, disponible desde el primer día con imagen Docker lista para usar, rebaja aún más la barrera de adopción en producción.

𝕏 @WesRoth (Wes Roth) sitúa el anuncio en el problema de fondo: la saturación del ancho de banda de memoria en inferencia autoregresiva es una limitación estructural, y que Google incorpore MTP directamente en Gemma 4 democratiza una solución que antes exigía implementación propia por cada equipo.

Agentes de programación: rendimiento desigual por tipo de tarea

No todos los tramos del desarrollo de software se aceleran igual con agentes de IA. El frontend, con tareas de perímetro acotado como componentes visuales o maquetación, ofrece mejores condiciones para la generación automática de código. El backend, donde entran la lógica de negocio, la seguridad y las decisiones arquitectónicas, sigue requiriendo juicio humano en mayor medida. Para los líderes técnicos, asumir una aceleración uniforme al planificar equipos es un error de diseño con consecuencias reales. En paralelo, el debate sobre cómo estructurar estos sistemas gana precisión con un criterio claro: la complejidad de la solución debe seguir a la complejidad de la tarea, no a la ambición tecnológica del equipo. Hay un tercer problema, menos visible pero relevante: el vocabulario dominante en el diseño de sistemas agénticos, bucles, hooks, planos de control, viene del mundo del código y deja fuera la dimensión organizativa. Conceptos de la teoría de gestión como los tramos de control o los objetos frontera describen con más precisión cómo varios agentes colaboran y son supervisados. Mientras ese gap disciplinar no se cierre, los diseños agénticos corren el riesgo de ser técnicamente sólidos pero organizativamente frágiles.

La jerarquía que propone 𝕏 @AndrewYNg (Andrew Ng) no es solo descriptiva: situar el frontend como el área más acelerada implica que los equipos deberían revisar dónde concentran sus apuestas en automatización antes de asumir que el beneficio se distribuye por igual.

El marco de 𝕏 @miguelgfierro (Miguel Fierro) tiene valor por su austeridad: prompt para tareas puntuales sin memoria, skill para unidades reutilizables con contexto de dominio, agente para flujos multietapa con herramientas y autonomía. En un mercado donde casi todo se vende como agente, proponer que la solución siga a la tarea y no al revés es una corrección útil contra el sobrediseño.

Para 𝕏 @emollick (Ethan Mollick), el problema de fondo es disciplinar: quienes diseñan arquitecturas agénticas hablan el idioma del código, pero décadas de investigación en comportamiento organizacional, con conceptos como tramos de control u objetos frontera, describen mejor cómo funciona la coordinación entre agentes autónomos y personas.

NVIDIA abre por primera vez partes del código de cuDNN

Durante doce años, cuDNN funcionó como una caja negra: la biblioteca de primitivas de deep learning sobre la que se apoya prácticamente todo el ecosistema de entrenamiento e inferencia en GPU, desde PyTorch hasta TensorFlow, solo exponía sus archivos de cabecera. Esta semana, NVIDIA ha publicado el código fuente de más de veinte kernels relacionados con Mixture of Experts (MoE) y con Native Sparse Attention (NSA), dos técnicas centrales en los modelos de vanguardia: MoE subyace a familias como GPT; la atención dispersa es clave para escalar eficientemente la longitud de contexto. La apertura tiene una dimensión técnica relevante porque reduce la barrera de entrada para investigadores e ingenieros que hasta ahora quedaban al margen del desarrollo de kernels de alto rendimiento. La documentación pública incluye operaciones optimizadas para el hardware que NVIDIA está desplegando ahora. Dicho esto, el alcance real de la apertura merece cautela: los kernels publicados cubren arquitecturas modernas relevantes, pero cuDNN sigue siendo en su mayor parte código cerrado. La distancia entre lo que se publica y lo que NVIDIA optimiza internamente para sus clientes prioritarios no es visible desde fuera.

Para 𝕏 @SemiAnalysis_ (Semianalysis), doce años de hermetismo convierten este movimiento en un cambio histórico en la estrategia de software de NVIDIA, no en una actualización menor, y atribuye parte del mérito al equipo interno que impulsó la apertura, con mención explícita a uno de sus miembros.

Identidad digital obligatoria y regulación de IA dividen al sector

En pocas semanas ha cobrado fuerza una presión para imponer verificación de identidad obligatoria en plataformas digitales. Lo que despierta suspicacias no es la propuesta en sí, sino su sincronía: actores de países y tradiciones regulatorias distintos la defienden al mismo tiempo, con un parecido argumental difícil de atribuir a la casualidad. En Estados Unidos, este tipo de medidas tiene un obstáculo constitucional directo en la Cuarta Enmienda, que protege a los ciudadanos frente a intromisiones estatales sin respaldo judicial. La UE, el Reino Unido y varios estados norteamericanos llevan años explorando verificación de edad para redes sociales y contenido adulto, pero la percepción de una campaña transnacional coordinada añade una dimensión que desborda el debate técnico-legal habitual. Para el sector tecnológico, las consecuencias son concretas: cualquier ley de identidad digital afectaría a plataformas, navegadores y proveedores de autenticación. Conectado a este debate aparece un argumento sobre el acceso a modelos de IA restringidos por sus elevadas capacidades (i.e. Mythos de Anthropic): ampliar ese acceso podría mejorar la seguridad del software si permitiera a cualquier equipo de desarrollo ejecutar pruebas de penetración automatizadas integradas en los ciclos de entrega. El modelo actual, donde el pen testing es caro, puntual y a menudo externalizado, deja ventanas de vulnerabilidad abiertas durante meses. Si la regulación restringe el acceso a modelos potentes, solo unos pocos tendrán la capacidad de defenderse ante ciberataques.

La sincronía con la que múltiples actores defienden la verificación de identidad online inquieta a 𝕏 @Dan_Jeffries1 (Daniel Jeffries), que no cuestiona tanto la medida como su coordinación aparente: demasiados frentes a la vez, con demasiado parecido argumental, para que resulte espontáneo.

Fei-Fei Li apoya startup de entretenimiento con IA

Play Astrocade ha cerrado una ronda Serie B de 56 millones de dólares liderada por Sequoia Capital, con una Serie A previa liderada por Sea. La startup e posiciona como una plataforma de entretenimiento social donde cualquier usuario puede crear y compartir videojuegos generados con IA, sin saber programar. Lo que es relevante es quién respalda el proyecto: Fei-Fei Li, cofundadora de AI4ALL y referencia global en IA, ha expresado públicamente su vinculación con el equipo fundador, mencionando por nombre a los cofundadores Amir Abolfathi y Ali Sadeghian. Ese gesto sitúa su papel más cerca del de asesora o inversora que del de observadora externa. Astrocade quiere ser una especie de YouTube/TikTok de juegos casuales generados por IA, no solo una herramienta de “vibe coding” para prototipos. El activo clave no es cada juego individual, sino el marketplace: una biblioteca viva de juegos hiper-casuales, personalizados, virales y de rápida rotación, alimentada por creadores que antes no podían desarrollar juegos. El gran desafío será sostener calidad y moderación de los juegos sin perder la promesa central: que cualquiera pueda pasar de una idea a un juego jugable en minutos.

El tono de 𝕏 @drfeifei (Fei-Fei Li) al mencionar a los fundadores por su nombre y destacar el progreso del equipo apunta a una relación de trabajo real, no a un endorsement de escaparate.

UNI-1.1 debuta en lo alto del Image Arena y adelanta a Microsoft

Luma Labs ha lanzado UNI-1.1 y UNI-1.1-Max, dos modelos de generación y edición de imagen que han debutado directamente en el tercer puesto del Image Arena de LMArena, solo por detrás de las propuestas de OpenAI (GPT-Image) y Google (Nano Banana). UNI-1.1-Max alcanza 1.193 puntos en el ranking Text-to-Image, doce por encima del siguiente, MAI-Image-2 de Microsoft. La clasificación se basa en más de cinco millones de votos humanos comparativos entre 60 modelos, lo que la hace más resistente a la manipulación que los benchmarks técnicos convencionales.

Luma quiere posicionar Uni-1.1 como infraestructura creativa lista para escala, no solo como herramienta de diseño, prometiendo menor coste y latencia que modelos comparables. La proposición de Luma Labs en generación de imagen con IA no es “otro Midjourney”, sino una plataforma para producción creativa visual de extremo a extremo: generar, editar, mantener coherencia estética y escalar activos desde una interfaz conversacional, agentes creativos y API.

Hassabis: el cerebro como máquina de Turing clásica

En AI Ascent 2026, la conferencia anual de Sequoia Capital, Demis Hassabis sostuvo que el cerebro humano opera como una máquina de Turing aproximada: un sistema de cómputo clásico, no cuántico. Para respaldarlo usó AlphaFold, el modelo de DeepMind que resolvió el plegamiento de proteínas, un problema que durante años se consideró candidato natural para la computación cuántica y que una red neuronal clásica terminó resolviendo. El argumento tiene peso práctico: si una arquitectura clásica suficientemente expresiva puede modelar fenómenos cuánticos con la precisión necesaria para producir resultados válidos, la apuesta por escalar aprendizaje profundo antes de esperar hardware cuántico maduro gana base teórica. También erosiona la narrativa de que los problemas más duros de la ciencia exigen inevitablemente computación cuántica. Lo que la tesis de Hassabis no cierra es el perímetro de la aproximación: cuántos problemas parecían exigir modelado cuántico solo porque el aprendizaje profundo aún no había llegado a ellos, y cuántos lo exigen de verdad.

Para 𝕏 @vitrupo (Vitrupo), AlphaFold no es solo un logro de ingeniería sino una prueba de concepto más amplia: la inteligencia clásica puede modelar fenómenos cuánticos con precisión suficiente para resolverlos, lo que desplaza el debate sobre los límites reales de la IA clásica hacia un terreno más empírico y menos especulativo.

Desde la investigación del sistema visual del cerebro, 𝕏 @TrueAIHound (Agihound) rechaza el marco de Turing como punto de partida: reducir la inteligencia a computación clásica le parece una convención que el campo repite por inercia, no una conclusión que emerja del estudio empírico del cerebro.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Discusión sobre este post

Por supuesto, sigue adelante.