Claude Opus 4.8: mejores métricas y respuestas más "honestas"
Anthropic confirma el lanzamiento de una nueva clase de modelos más potentes (Mythos).
¿Qué pasó ayer? En un minuto:
Anthropic lanza Claude Opus 4.8 con mejores métricas y presenta Dynamic Workflows para orquestar cientos de subagentes en paralelo.
Anthropic levanta 65.000 millones con una valoración post-money de 965.000 millones y un run-rate de ingresos que ya supera los 47.000 millones.
NVIDIA adopta OpenMDW, el marco legal que unifica licencia de pesos, código, documentación y datos, en todas sus familias de modelos abiertos.
Waymo presenta Ojai, la sexta generación de su vehículo, llegará a San Francisco, Los Ángeles y Phoenix en las próximas semanas.
Naval publica un podcast donde recomienda derrochar tokens para ahorrar tiempo; también habla de cómo el concepto de vibe coding llega al hardware.
Apple ultima el esperado rediseño completo de Siri con app dedicada y una interfaz integrada en la Dynamic Island, según Bloomberg.
Noam Brown sostiene que la IA hará con las matemáticas lo que AlphaGo hizo con el Go: romper el techo humano en lugar de sustituirlo.
Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.
Y si tienes más de un minuto…
1. Anthropic lanza Claude Opus 4.8
Anthropic ha lanzado Claude Opus 4.8, nueva iteración de su gama alta menos de dos meses después de Opus 4.7. El modelo sube al 69,2% en SWE-bench Pro, frente al 64,3% anterior, y alcanza un Elo de 1890 en GDPval, por delante de GPT-5.5 de OpenAI según cifras de la propia compañía. El despliegue es general para usuarios de Claude e incorpora un selector de esfuerzo de razonamiento con cinco niveles (Low, Medium, High, Extra y Max), pensado para ajustar profundidad, latencia y coste por consulta. En el API, Opus 4.8 mantiene la tarifa de $5/$25 por millón de tokens de entrada y salida, y abarata el Fast Mode a un tercio con respecto a la versión previa, un modo pensado para usuarios exigentes que quieren minimizar la latencia manteniendo prestaciones.
Según Anthropic, Claude Opus 4.8 es un modelo más “honesto”. Esto no significa que el modelo tenga intención propia, sino que es menos propenso a aparentar seguridad cuando no la tiene: reconoce mejor sus dudas, evita hacer afirmaciones que no puede respaldar y avisa con más frecuencia cuando detecta problemas en su propio trabajo. Anthropic afirma que, en sus evaluaciones, Opus 4.8 fue unas cuatro veces menos propenso que su predecesor a dejar pasar sin señalar fallos en código que él mismo había escrito; además, su equipo de alineamiento observó menores tasas de conductas problemáticas, como engaño o cooperación con usos indebidos. En definitiva, esta mejora apunta a un modelo más útil para tareas críticas porque advierte cuándo una conclusión, un análisis o una solución necesitan revisión humana.
Además, en Claude Code, Anthropic introduce “dynamic workflows”, una función en vista previa que permite dividir grandes proyectos en múltiples tareas paralelas, revisarlas y devolver un resultado coordinado. La empresa lo enfoca especialmente a migraciones de software, auditorías de código y modernización de sistemas, áreas donde el coste de tiempo para las compañías suele ser elevado. Y la guinda es el anuncio de una nueva clase de modelo superior a Opus, que se llamaría Mythos, y que llegará en las próximas semanas una vez resueltas las salvaguardas de ciberseguridad.
Para 𝕏 @DotCSV (Carlos Santana), llega tras una 4.7 que no entusiasmó y se queda en una mejora incremental que, sobre el papel, aporta avances en programación agéntica y algo en razonamiento, aunque a estas alturas los benchmarks cuentan poco.
Tras probarlo en código, 𝕏 @jeremyphoward (Jeremy Howard) lo ve más cooperativo y menos 'sobre-agéntico' que 4.7: se detiene a pedir input donde tanto 4.7 como GPT-5.5 seguirían adelante a ciegas, aunque sigue siendo, en sus palabras, demasiado caro.
Desde el ángulo enterprise, 𝕏 @levie (Aaron Levie) afirma que en pruebas con el agente de Box sobre documentación corporativa real, Opus 4.8 mejora de forma medible en tareas generativas y analíticas como redacción de informes y síntesis, justo donde las empresas ponen el foco.
𝕏 @emollick (Ethan Mollick) lo ha utilizado en Claude Code para producir un working paper académico a partir de archivos de investigación antiguos, usando GPT-5.5 Pro como revisor: detectó un error mayor y varios menores que Opus corrigió, un flujo de trabajo con modelos de distintos laboratorios cada vez más frecuente en investigación.
𝕏 @testingcatalog (Ai News | Testingcatalog) subraya que con Dynamic Workflows Claude Code deja de ser un asistente conversacional para convertirse en un orquestador capaz de lanzar subagentes en paralelo y autoverificar el resultado antes de entregarlo.
Más información:
2. Anthropic cierra Serie H de 65.000 millones
Anthropic ha cerrado una ronda Series H de 65.000 millones de dólares que valora la compañía en 965.000 millones, una cifra que la sitúa entre las startups más valiosas del mundo y por delante de OpenAI según Reuters. La operación fue liderada por Altimeter, Dragoneer, Greenoaks y Sequoia, e incluye 15.000 millones ya comprometidos por grandes proveedores de nube, entre ellos Amazon.
La justificación financiera es la propia tracción comercial: el run-rate de ingresos cruzó los 47.000 millones a principios de mes, muy por encima del nivel registrado en febrero al cerrar la Serie G. El crecimiento se concentra en despliegues de Claude en operaciones internas de grandes empresas (programación, análisis y flujos documentales), mientras ChatGPT mantiene la ventaja en consumo individual.
El capital se destinará a investigación en seguridad e interpretabilidad, ampliación de cómputo y escalado de productos como Claude Code y Cowork. La compañía declara como prioridad operativa atender la demanda actual sin perder posición en la frontera de modelos. El comunicado lo firma Krishna Rao, CFO de Anthropic, y la ronda más que duplica el tamaño de la mayor OPV registrada hasta la fecha, según comparativas hechas públicas tras el anuncio.
Desde la propia 𝕏 @AnthropicAI (Anthropic), Krishna Rao enmarca la ronda como respuesta a una demanda "histórica" y vincula la inyección de capital al crecimiento de Claude Code y Cowork dentro de los flujos de trabajo de sus clientes empresariales.
Para 𝕏 @WesRoth (Wes Roth), el dominio de ChatGPT en usuarios no se traslada al mercado corporativo, donde Anthropic está capturando contratos por casos de uso concretos como programación, automatización y agentes operativos.
𝕏 @testingcatalog (Ai News | Testingcatalog) atribuye buena parte del salto de ingresos al uso individual de Claude para tareas cotidianas de trabajo, un canal menos visible que los grandes contratos pero que complementa el despliegue empresarial.
Desde la cobertura asiática, 𝕏 @MetaEraHK (Me Group) subraya que el destino del capital es expansión de capacidad y continuidad en la investigación de Claude, sin mención a movimientos hacia consumo masivo o nuevos verticales.
Más información:
📎 Anthropic raises $65B in Series H funding at $965B post-money valuation
3. NVIDIA adopta OpenMDW para sus modelos abiertos
NVIDIA aplicará el marco OpenMDW de la Linux Foundation a todas sus familias de modelos abiertos. OpenMDW (Open Model, Data, Weights) cubre con una sola licencia los pesos, el código, la documentación y los datos asociados, en lugar de combinar licencias distintas para cada componente. La compañía sostiene que esa unificación reduce la fricción jurídica para desarrolladores que integran modelos abiertos en productos comerciales y aporta consistencia al licenciamiento a escala.
El ecosistema de IA abierta convive con una proliferación de licencias propias (Llama de Meta, las variantes de Mistral, las múltiples condiciones que se cruzan en Hugging Face), con cláusulas distintas para uso comercial, redistribución de pesos o derivados. Eso ha frenado la adopción empresarial y obligado a los equipos legales a revisar caso por caso. Al alinearse con un marco gobernado por la Linux Foundation, NVIDIA empuja al sector hacia un patrón comparable al que en su día consolidaron las licencias OSI en software, y refuerza su posición como proveedor de referencia del stack abierto, donde ya distribuye familias como Nemotron. OpenMDW se aplicará de forma transversal a los modelos abiertos ya publicados por NVIDIA y a los futuros, manteniendo la distribución habitual de pesos y artefactos por los canales actuales, incluido Hugging Face.
Para 𝕏 @NVIDIAAI (Nvidia Ai), un marco legal único sobre modelos, código, documentación y datos es lo que hace viable escalar el licenciamiento abierto sin que cada integración exija una revisión jurídica a medida.
Más información:
📎 A permissive license crafted for machine-learning models
4. Waymo estrena plataforma
Waymo, filial de conducción autónoma de Google, ha presentado Ojai, un vehículo equipado con la sexta generación del Waymo Driver que empezará a operar en las próximas semanas en San Francisco, Los Ángeles y Phoenix. Según TechCrunch, el modelo es de fabricación china y está pensado para reducir el coste por unidad, una variable clave en la economía del robotaxi a escala. La incorporación encaja con el ritmo comercial de Waymo One, ya disponible en once ciudades estadounidenses, y con una comunicación que ha virado de la capacidad tecnológica al estilo de vida: campañas como 'The perfect nightcap' apuntan al uso nocturno, segmento que compite directamente con Uber, Lyft y el taxi tradicional.
Mientras, Zoox, propiedad de Amazon, refuerza su presencia en San Francisco con contenido grabado dentro de su vehículo sin volante ni pedales y con asientos enfrentados, un diseño que utiliza como argumento diferencial frente a la flota de coches adaptados de Waymo. El despliegue de Ojai arrancará con un grupo reducido de usuarios seleccionados que probarán el vehículo y aportarán feedback antes de la apertura general. La presentación llega dos días después de que Waymo suspendiera temporalmente todos sus viajes por autopista en EE. UU., incluidas las rutas de San Francisco y Los Ángeles, por motivos de seguridad.
Desde dentro del equipo, 𝕏 @saswat101 (Saswat Panigrahi) precisa que el arranque será con un grupo seleccionado de usuarios cuyo feedback condicionará la velocidad de extensión del servicio.
𝕏 @zoox (Zoox) aprovecha el habitáculo simétrico de su vehículo para reivindicar usos sociales imposibles en un coche convencional como el de Waymo.
Más información:
📎 Waymo's robotaxi expansion accelerates with 3 new cities (buscado en internet)
5. Vibe coding también llega al hardware
Naval ha publicado dos entregas de su podcast con Guillermo Rauch (Vercel), Blake Scholl (Boom Supersonic) y Max Hodak (Science) sobre cómo la IA generativa está reordenando el desarrollo de software y hardware. Naval plantea una idea provocadora para las empresas que están incorporando inteligencia artificial: dejar de obsesionarse con el gasto en “tokens” y medir el retorno por tiempo ahorrado y resultados entregados. La IA está transformando el software en una “fábrica”: los mejores equipos ya no solo escriben código, diseñan sistemas que producen más trabajo de forma repetible.
Otra tesis de fondo es que la IA refuerza la integración vertical: las compañías que controlan software, diseño, fabricación y validación podrán reducir dependencia de proveedores y acelerar ciclos de producto. El caso más concreto lo aporta Boom: el diseño de un álabe de turbina, hasta ahora atrapado en hojas de Excel que circulaban por correo entre aerodinámicos e ingenieros de estructuras, se reorganiza en un flujo apoyado con ingenieros de software para pasar a modelos interactivos donde se prueban cambios casi en tiempo real.
Si antes la productividad dependía de contratar más desarrolladores, ahora empieza a depender de cómo se organiza el trabajo alrededor de agentes de IA con buenas instrucciones y revisión humana. En sectores regulados, la IA no elimina la responsabilidad: desplaza el valor humano hacia verificar, certificar y responder por las decisiones. Ese será el nuevo cuello de botella empresarial.
Más información:
6. Apple prepara rediseño profundo de Siri
Apple prepara una revisión profunda de Siri acompañada de una app dedicada al asistente, según Bloomberg. La nueva versión llegaría a principios de septiembre, en la ventana habitual de anuncios de iPhone, lo que apunta a un despliegue ligado a hardware nuevo y a una actualización mayor del sistema operativo. La pieza más visible sería una interfaz a nivel de sistema integrada con la Dynamic Island, junto a una versión independiente del asistente que operaría con mayor autonomía respecto al resto de apps.
El movimiento llega tarde: Siri a pesar de su larga trayectoria ha quedado descolgado en capacidades frente a lo que ofrece el modo de voz de ChatGPT o Gemini Live. Apple ya retrasó en 2025 las funciones de Apple Intelligence más dependientes de contexto personal. Que Siri tenga su propia app sugiere que el interfaz conversacional será el centro del nuevo iOS. En paralelo, los rumores sobre iOS 27 también incluyen mejoras en edición fotográfica y una app de Cámara más configurable orientada a uso profesional, aunque estos puntos están menos confirmados que el rediseño del asistente.
El punto que subraya 𝕏 @WesRoth (Wes Roth) es el anclaje de Siri en la Dynamic Island como interfaz de sistema, un giro que convertiría al asistente en capa transversal de iOS en lugar de una función invocada bajo demanda.
7. Brown ve un efecto AlphaGo en matemáticas
Noam Brown, investigador de OpenAI especializado en razonamiento y juegos, ha planteado en X que el efecto de la IA sobre las matemáticas se parecerá al de AlphaGo en el Go: una mejora apreciable del nivel humano, no su desplazamiento. La hipótesis se apoya en un ensayo de Henrik Karlsson que documenta cómo, tras la victoria de AlphaGo de DeepMind en 2016, los profesionales rompieron un plateau que arrastraban desde los años cincuenta.
La idea encaja con el momento del sector: OpenAI, DeepMind y Anthropic están invirtiendo en modelos de razonamiento orientados a demostración formal, con avances recientes como la refutación del problema planar de Erdős ChatGPT. El paralelismo apunta a una IA matemática que funciona como espejo y catalizador del investigador, no como reemplazo. El ensayo añade un matiz cuantitativo relevante: según un estudio citado en el artículo, en torno al 40% de la mejora en el Go provino de jugadas memorizables estudiando a la IA, y el 60% restante de movimientos propiamente humanos que se desviaban de las recomendaciones del sistema. Karlsson precisa además, tras una corrección de Gwern, que el gráfico de calidad de juego refleja la media de la población, no la distribución interna entre profesionales.
La tesis de 𝕏 @polynoamial (Noam Brown) es directa: si el Go profesional mejoró tras AlphaGo, lo razonable es esperar el mismo patrón en matemáticas, con la IA empujando el techo humano en lugar de cerrarlo.
Para 𝕏 @Suhail (Suhail), Lee Sedol es la referencia útil para gestionar la obsolescencia de habilidades: en vez de competir con la máquina en sus términos, reconfiguró su posición y ahora es un académico que trata de entender cómo los humanos podemos coexistir con la IA.
Más información:
📎 After AI beat them, professional go players got better and more creative



