Anthropic presenta Claude Science

No es un modelo nuevo, es una aplicación vertical para acelerar la investigación biológica.

jul 02, 2026

¿Qué pasó ayer? En un minuto:

Anthropic dobla su apuesta por productos verticales con la presentación de Claude Science, un banco de trabajo para investigación en ciencias de la vida, con más de 60 conectores especializados y agentes que revisan citas y cálculos.
xAI lanza Voice Agent Builder, una plataforma sin código para crear agentes de voz con Grok, a 0,05 dólares por minuto.
Opinión: el diseño de sistemas de IA avanzados pasa por los enjambres de agentes coordinados, un patrón que multiplica el cómputo por tarea y coloca el coste por tarea como la gran métrica a vigilar los próximos doce meses.
Opinión: los modelos de pesos abiertos ganan relevancia como vía para que empresas y gobiernos ganen control y refuercen la seguridad con una mayor capacidad de inspección.
Los benchmarks de IA empiezan a desplazarse hacia pruebas de valor económico real, mostrando que la IA aún está lejos de sustituir el trabajo humano.
SemiAnalysis describe cómo la inferencia se está fragmentando para que cada chip haga lo que mejor sabe, abaratando el coste por token y empujando hacia el silicio especializado.
Google lleva Gemini Spark a macOS y lo convierte en un agente de escritorio capaz de gestionar archivos locales y crear documentos. Sigue en beta, solo para suscriptores AI Ultra en Estados Unidos.
NVIDIA Research presenta Nemotron-Labs-TwoTower, un modelo de lenguaje que combina contexto autorregresivo con generación por bloques mediante difusión con el objetivo de recortar la latencia que lastra los LLM autoregresivos.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Y si tienes más de un minuto…

1. Anthropic lleva Claude a la investigación científica

Anthropic ha presentado Claude Science, una aplicación todavía en beta pensada para investigadores que reúne en un solo entorno tareas que hoy suelen estar dispersas entre bases de datos científicas, herramientas de análisis, notebooks y recursos de computación. No es un nuevo modelo, sino una capa de trabajo sobre Claude capaz de buscar información, ejecutar análisis, generar figuras y manuscritos, y conservar el historial de cómo se produjo cada resultado para que pueda revisarse y reproducirse después. Podríamos decir que es el Claude Code para científicos. Está disponible para macOS y Linux en los planes Pro, Max, Team y Enterprise.

La herramienta reúne más de 60 conectores especializados en genómica, proteómica, quimioinformática y biología estructural, gestiona el envío de trabajos de cómputo y persigue la reproducibilidad: adjunta código, detalles del entorno y descripciones en lenguaje natural de cada artefacto. También incorpora agentes revisores que detectan errores de citación y de cálculo. El impacto prometido es claro: acortar ciclos de investigación y mejorar su trazabilidad. Con este lanzamiento, Anthropic sigue adentrándose en el terreno de los productos verticales, diseñados para encajar en flujos de trabajo profesionales concretos.

El adelanto de 𝕏 @testingcatalog (Ai News | Testingcatalog) pone el foco en la reproducibilidad: trazar artefactos hasta su código, gestionar entornos de ejecución bajo demanda y conectar más de 60 bases de datos científicas opcionales, justo la fricción que suele lastrar el trabajo de laboratorio.

Más información:
📎 Claude Science, an AI workbench for scientists, is now available
📎 Early look at Anthropic’s Claude Science app for researchers

2. xAI entra en agentes de voz empresariales

xAI ha lanzado Voice Agent Builder, una plataforma sin código para crear agentes de voz apoyados en Grok Voice. Está disponible desde ya en la xAI Console, en fase beta, a 0,05 dólares por minuto. Con ella, una empresa puede dar instrucciones a un agente, conectar su base de conocimiento interna, integrar APIs y herramientas MCP (Model Context Protocol), fijar guardarraíles y desplegarlo en llamadas telefónicas.

El argumento de xAI es técnico. Las pilas de voz habituales encadenan tres servicios separados (transcripción de voz a texto, un modelo de lenguaje y síntesis de texto a voz), a menudo de proveedores distintos, y cada salto suma coste, latencia y nuevos puntos de fallo. La propuesta reúne ese flujo en una única interfaz acoplada a Grok Voice. Con ello xAI se posiciona en la atención al cliente automatizada por voz, un mercado con competidores ya asentados, y ofrece un precio por minuto que simplifica el cálculo de costes frente al enfoque fragmentado. Cada cuenta incluye un número de teléfono gratuito para empezar a probar. Por ahora no hay cifras públicas de latencia, idiomas soportados ni límites de uso, ni comparativas de rendimiento con alternativas del sector. La capacidad de generar voces humanas para centros de llamadas plantea además un frente sobre usos legítimos y abusos que la documentación oficial todavía no cubre.

Para 𝕏 @WesRoth (Wes Roth), lo llamativo es pasar de la instrucción al despliegue en una llamada sin ensamblar sistemas por separado, justo la fricción que suele frenar estos proyectos en empresa.

𝕏 @testingcatalog (Ai News | Testingcatalog) lo lee como una señal de que xAI amplía foco más allá del chatbot Grok hacia herramientas de desarrollo para integrar voz en productos de terceros.

𝕏 @oragnes (Trader) apunta al precio como golpe competitivo: cinco céntimos por minuto hunde el coste de montar telefonía y atención al cliente con IA.

Más información:
📎 Introducing the Voice Agent Builder

3. Opinión: organización de sistemas multi-agente

El debate sobre agentes de IA se desplaza de ejecutar tareas sueltas a coordinar varios agentes a la vez. Gana tracción la idea de que los flujos agénticos no se resuelven con una consulta, sino con múltiples llamadas de inferencia que se dividen, se procesan en paralelo y se recombinan, un patrón cercano al procesamiento distribuido clásico. Aplicado a enjambres de agentes que manejan grandes volúmenes de datos, ese diseño multiplica el cómputo por tarea y refuerza la tesis de que la demanda de inferencia (chips, centros de datos, capacidad en la nube) seguirá creciendo.

En paralelo surge la discusión sobre cómo estructurar esos sistemas. Frente a los enrutadores que preclasifican cada petición y la mandan a un modelo más ligero o más potente, avanza la idea de conjuntos de agentes coordinados, con delegación entre perfiles caros y baratos y entre especialistas y generalistas, tomando prestado el vocabulario de la teoría organizativa. El enrutamiento previo tiene un riesgo conocido: si clasifica mal la dificultad de una consulta, asigna un modelo insuficiente y degrada la respuesta.

El futuro que dibuja 𝕏 @levie (Aaron Levie) es de enjambres de agentes trabajando en paralelo sobre grandes volúmenes de datos, un 'mapreduce agéntico' que en su cálculo justifica multiplicar por 100 la inferencia actual, con Devin como ejemplo del patrón.

𝕏 @emollick (Ethan Mollick) apuesta a que las organizaciones de agentes coordinados batirán a los enrutadores por tareas puros en relación precio/rendimiento, y avisa de que preclasificar consultas produce mucho trabajo mediocre, un tropiezo que atribuye a OpenAI con GPT-5.

Para 𝕏 @Suhail (Suhail), el coste por tarea será la métrica que de verdad importe durante los próximos doce meses, justo el indicador que decide si los enfoques multiagente compensan frente a modelos únicos.

4. Opinión: modelos de pesos abiertos y soberanía

El argumento a favor de los modelos pesos abiertos vuelve al primer plano por dos vías: control corporativo y verificación de seguridad. En producto, hay un dato concreto: GLM 5.2, un modelo abierto de escala frontera, ya corre en Microsoft Foundry sobre aceleradores AMD MI300X, y se ha probado ejecutando un objetivo de tipo Codex sin recurrir a un modelo propietario. Indica que las grandes plataformas cloud empiezan a integrar el código abierto como opción de primera clase, no como alternativa secundaria.

El fondo del debate sobre modelos de pesos abiertos enfrenta a quienes sostienen que una empresa con recursos debería controlar su propio modelo, poseerlo y personalizarlo, frente a la lógica de comprar acceso a terceros. Se le suma un argumento de seguridad: los sistemas abiertos permiten que más gente los inspeccione, detecte fallos y proponga correcciones, algo que la opacidad de los modelos cerrados dificulta. Palantir ha aportado el ángulo de la soberanía institucional, encuadrando el control sobre la propia IA como cuestión estratégica para gobiernos y organizaciones.

Para 𝕏 @Dan_Jeffries1 (Daniel Jeffries), las empresas chinas han captado antes que las estadounidenses el valor de tener modelo propio: quien depende de un proveedor externo, dice, no controla su capacidad, solo alquila su mente.

5. Benchmarks para medir capacidad económica real

La medición de modelos de IA se está desplazando del conocimiento académico hacia tareas con valor económico real. El motivo del giro es sencillo: los benchmarks clásicos saturan y dejan de separar modelos. La métrica Remote Labor Index (RLI), desarrollada por el CAIS (Center for AI Safety) y Scale Labs, mide trabajos freelance completos, como diseño, vídeo, CAD, arquitectura, análisis de datos o aplicaciones web. El trabajo solo cuenta como “automatizado” si evaluadores humanos consideran que el resultado iguala o supera al de un profesional pagado.

El mejor modelo evaluado hasta la fecha, Fable 5, alcanza una tasa de automatización del 16,1%, frente al 2,5% registrado cuando se lanzó RLI hace menos de ocho meses. A pesar del salto, los modelos más avanzados siguen fallando en la mayoría de los encargos, y varios ejemplos revisados por CAIS muestran entregas visualmente prometedoras pero insuficientes para un cliente exigente. Otro benchmark todavía no saturado es ARC-AGI-3, en el cual un agente debe deducir por sí mismo las reglas y los objetivos de juegos representados como rejillas de 64x64, optimizando el número de acciones. Aunque ARC-AGI-3 mide capacidad de generalización de un agente, y no valor económico real, ataca una de las limitaciones de la IA actual basada en el paradigma dominante de los grandes modelos de lenguaje.

El salto que subraya 𝕏 @WesRoth (Wes Roth) es la tasa de automatización completa en el RLI: cita un 16,1% para Claude Fable 5, casi el doble del 8,3% de Claude Opus 4.8 y por delante del 6,3% de GPT-5.5, cifras que aún no aparecen verificadas en las fuentes del propio índice.

𝕏 @MLStreetTalk (Machine Learning Street Talk) insiste en que ARC-AGI-3 desconcierta a casi todos los intentos convencionales precisamente porque obliga al agente a descubrir las reglas, un terreno donde los humanos siguen por delante de los modelos frontera.

𝕏 @emollick (Ethan Mollick) rebaja el valor de los rankings genéricos: cuando las decisiones se apilan, las diferencias entre modelos se amplifican y ningún benchmark estándar dirá qué modelo encaja con un caso de uso concreto.

Más información:
📎 A Significant Increase in Digital Labor Automation

6. SemiAnalysis disecciona la economía de la inferencia

SemiAnalysis, firma independiente de investigación en semiconductores e IA, ha publicado una serie de análisis sobre cómo se ejecuta hoy la inferencia: el proceso de generar respuestas a partir de un modelo ya entrenado. La inferencia se está fragmentando en varias partes para que cada chip haga aquello para lo que es más eficiente en lugar de compartir chips genéricos. Importa porque la inferencia es ya el principal coste operativo de desplegar modelos a escala, y esta especialización abarata el coste por token.

Describe tres tipos de especializaciones. La primera separa por fase: el prefill, que lee el prompt del usuario, corre en un conjunto de chips, y el decode, que genera la respuesta token a token, en otro distinto, porque cada tarea tensiona el hardware de forma diferente. La segunda divide por capa de la arquitectura Transformer: la atención se ejecuta en GPU con abundante memoria HBM y la red feed-forward en silicio basado en SRAM. Y la tercera reparte las cargas por franjas temporales para que el cluster no quede parado.

El planteamiento de 𝕏 @SemiAnalysis_ (Semianalysis) es que dividir la inferencia por fase, por capa y ahora por tiempo abarata la inteligencia en cada corte, un patrón que empuja el diseño de centros de datos hacia el silicio especializado frente a la GPU de propósito general.

Pese a sus reservas hacia algunas de las opiniones fuertes de SemiAnalysis, 𝕏 @TheValueist (Thevalueist) califica la entrevista con su fundador como una demostración poco común de dominio del negocio de infraestructura para IA.

𝕏 @sonyatweetybird (Sonya Huang) sitúa a Dylan Patel como el insider más fiable sobre la mayor expansión de infraestructura de la historia, un aval de credibilidad que, a su juicio, explica el peso de estos análisis en la conversación del sector.

Más información:
📎 Dylan Patel of SemiAnalysis: Why Hardware-Software Co-Design Is AI's Real 100x

7. Gemini Spark aterriza en macOS

Google ha empezado a desplegar Gemini Spark, un conjunto de funciones que permite a Gemini ejecutar acciones por cuenta del usuario al estilo de OpenClaw. La novedad con más recorrido es su llegada a la aplicación de macOS, que mete a Google en el ecosistema de Apple para disputar el escritorio a otros asistentes. El paquete incluye 'smart triggers', disparadores que automatizan tareas de forma continua, y trabajo local: organizar archivos en el Mac o generar documentos y hojas de cálculo de Google a partir de ficheros del propio equipo.

Google lo presenta como un agente personal operativo las 24 horas, con cinco usos orientados a la productividad diaria. El alcance de salida es corto. Spark arranca en beta y solo para suscriptores de Google AI Ultra, el plan de pago más caro, únicamente en Estados Unidos. La compañía prevé ampliarlo a más países durante el mes, un despliegue escalonado habitual por capacidad y regulación. Reservar lo avanzado al nivel Ultra encaja con la práctica del sector: diferenciar planes y monetizar la IA vía suscripción premium.

El propio 𝕏 @GeminiApp (Google Gemini) enmarca Spark menos como chatbot y más como agente personal continuo, con la integración en macOS y los 'smart triggers' como las piezas que lo acercan a ejecutar tareas por sí mismo.

Para 𝕏 @thearslaniqbal (Arslan Iqbal), lo relevante es que Gemini pasa a comportarse como un agente de escritorio real: organiza archivos en el Mac y genera documentos y hojas de cálculo a partir de ficheros locales, no solo conversa.

8. NVIDIA experimenta con modelos de difusión

NVIDIA Research ha presentado Nemotron-Labs-TwoTower, un nuevo modelo de lenguaje que busca resolver uno de los cuellos de botella más costosos de la IA generativa: la velocidad con la que se producen las respuestas. Frente al enfoque habitual, en el que el modelo escribe prácticamente palabra a palabra, esta arquitectura trabaja por bloques y revisa varias piezas de texto en paralelo gracias a un modelo de difusión, una arquitectura que se usa ampliamente en la generación de imágenes. Según el paper publicado en arXiv, el sistema mantiene el 98,7% de la calidad del modelo base y logra 2,42 veces más rendimiento de generación en pruebas realizadas.

El modelo parte de Nemotron-3-Nano-30B-A3B y usa dos “torres”: una conserva el contexto ya entendido por el modelo de lenguaje tradicional y otra genera el nuevo texto por bloques con el modelo de difusión. NVIDIA ha publicado los pesos y el modelo en Hugging Face, donde lo describe como apto para uso comercial bajo su licencia, aunque la inferencia completa requiere una infraestructura relevante: dos torres de unos 30B de parámetros cada una. Por ahora, los modelos de difusión aplicados al texto son una línea prometedora, pero todavía se mantienen principalmente en el terreno académico. La gran incógnita es si podrán funcionar con eficacia a la escala de los modelos de IA más avanzados.

El propio equipo de 𝕏 @NVIDIAAI (Nvidia Ai) resume la apuesta en términos operativos: coger un modelo de 30B, partirlo en dos y escribir tokens en paralelo, con el ahorro de latencia como argumento central del diseño.

Para 𝕏 @Marktechpost (Marktechpost Ai), el mérito está en resolver una tensión conocida de los modelos de difusión: pedir a una misma red que represente el contexto limpio y elimine ruido a la vez fuerza a los pesos en direcciones contrarias, y separar ambas funciones es lo que aquí cambia.

𝕏 @xiaojianjian567 (Polo1.4) aporta la cifra ausente en los anuncios oficiales: atribuye a la arquitectura de dos torres una mejora de 2,42x en el rendimiento de generación, y subraya que el modelo es de código abierto.

Más información:
📎 Nemotron-Labs-TwoTower: Diffusion Language Modeling with Pretrained Autoregressive Context

Discusión sobre este post

Por supuesto, sigue adelante.