OpenAI vuelve a liderar la generación de imágenes superando a Nano Banana

Lo esencial de la IA, cada día, para no quedarte atrás.

abr 22, 2026

¿Qué pasó ayer? En un minuto:

Ayer quedó claro que la competencia en IA está entrando en una nueva fase. Los grandes actores ya no se disputan solo quién consigue mejores resultados en los benchmarks, sino quién logra distribuir más rápido, integrarse mejor en los flujos de trabajo y captar más presupuesto empresarial. OpenAI tomó la iniciativa con el lanzamiento de ChatGPT Images 2.0, un movimiento con el que busca convertir la generación visual en una herramienta de producción real, desde marketing y documentación técnica hasta diseño estructurado, con disponibilidad inmediata en ChatGPT, Codex y la API. Google respondió al llevar Deep Research a la API de Gemini en dos versiones, una pensada para baja latencia y otra para análisis más intensivos, reforzando así su ofensiva en el mercado corporativo al incluir acceso seguro a datos propietarios y generación automática de presentaciones visuales.

Al mismo tiempo, Qwen, Grok y Kimi confirmaron que la nueva batalla ya no gira solo en torno al chatbot, sino al rendimiento de sistemas de agentes: mejor integración con herramientas, sesiones más largas y menos intervención humana. En el frente de la programación con agentes, OpenAI también mostró tracción con Codex, que alcanzó los 4 millones de usuarios activos y se afianza en su pulso con Claude Code por el liderazgo de este segmento.

Fuera de las novedades de producto, tenemos dos noticias que merecen interés. Stanford alertó sobre chatbots que refuerzan ideas delirantes cuando se usan como consejeros sentimentales, un problema de diseño con implicaciones directas para plataformas de consumo. Y Meta espera superar a Google en ingresos globales de publicidad digital, un vuelco histórico que sugiere que la IA ya no solo está transformando productos, sino también los grandes flujos de ingresos de internet.

Y si tienes más de un minuto…

OpenAI lanza ChatGPT Images 2.0

OpenAI ha lanzado ChatGPT Images 2.0 y su modelo subyacente, gpt-image-2, disponible desde hoy para todos los usuarios de ChatGPT y Codex, así como para desarrolladores vía API. Las mejoras más relevantes se concentran en tres frentes: generación de texto dentro de imágenes, composición de diseños estructurados (e.g. infografías, diapositivas o esquemas técnicos) y edición más precisa. El modelo admite salidas de hasta 2K de resolución y cuenta con una fecha de corte de conocimiento en diciembre de 2025. La capacidad de razonamiento visual, orientada a resolver tareas visuales complejas de forma autónoma, queda reservada a los planes de pago.

Con este lanzamiento, OpenAI busca consolidar una posición de liderazgo en generación de imágenes. La señal externa más contundente procede de Arena, la plataforma que compara modelos a partir de valoraciones de usuarios en pruebas ciegas. Allí, gpt-image-2 encabeza todas las categorías principales: 1512 puntos en text-to-image, con una ventaja de 242 puntos sobre Nano-banana-2; 1513 en edición de una sola imagen, 125 puntos por encima de Nano-banana-pro; y 1464 en edición multiimagen, 90 puntos por delante de Nano-banana-2. La amplitud de esa diferencia, la mayor que Arena afirma haber registrado hasta ahora en text-to-image, sugiere que OpenAI no está presentando una simple mejora incremental, sino un intento explícito de abrir distancia frente a Google, que hasta ahora lideraba este segmento con Nano Banana.

La principal incógnita que deja el lanzamiento es si la restricción del razonamiento visual a los planes de pago y el límite de 2K de resolución frenarán su adopción entre estudios de diseño y equipos de producción profesional, precisamente el público al que OpenAI parece dirigirse con los casos de uso que ha mostrado.

Para 𝕏 @WesRoth (Wes Roth), lo más relevante no es la interfaz sino el acceso vía API: gpt-image-2 llega directamente a producción para desarrolladores, lo que acelera su integración en herramientas de terceros desde el primer día.

𝕏 @gdb (Greg Brockman) señala educación, materiales de marketing y documentación técnica como los casos de uso más inmediatos. Describe el salto como «magia real» para desbloquear productividad —una de las pocas veces que ese lenguaje viene acompañado de ejemplos concretos.

La valoración de 𝕏 @mark_k (Mark Kretschmann) es más contenida: reconoce que el modelo es notable, pero califica la resolución de salida de «desafortunadamente baja» —una limitación que choca directamente con el argumento de calidad visual que OpenAI ha puesto en el centro de la presentación.

Google lleva Deep Research a la API con dos versiones

Google ha integrado dos variantes de Deep Research en la API de Gemini, ambas construidas sobre Gemini 3.1 Pro. Deep Research está optimizada para baja latencia en aplicaciones interactivas; Deep Research Max emplea más tiempo en buscar y razonar, pensada para análisis exhaustivos en segundo plano. Más allá del salto de rendimiento, hay dos novedades con peso propio: soporte MCP arbitrario, que permite conectar documentos internos o datos financieros propietarios de forma segura, y generación nativa de visualizaciones listas para presentación. La misma infraestructura que ya opera en NotebookLM y Google Search queda así disponible para desarrolladores a través de la API. Google también ha unificado sus ecosistemas de consumo y desarrollo: los suscriptores de Google AI Pro y Ultra acceden ahora a Google AI Studio con límites de uso ampliados y acceso a modelos de frontera. La combinación de soporte MCP con informes completamente citados sobre fuentes propietarias es lo que abre el encaje real en flujos de trabajo empresariales. Equipos de análisis, consultoría o finanzas tienen, sobre el papel, una herramienta que sustituye pasos manuales de síntesis. Si los límites de uso en los planes de pago acompañan, la adopción corporativa no necesitará esperar a una segunda iteración.

La cuenta de 𝕏 @GoogleDeepMind (Google Deepmind) presentó las dos variantes como complementarias: Deep Research para velocidad en apps interactivas, Deep Research Max para contextos que requieren razonamiento profundo en tareas que corren en segundo plano.

𝕏 @DotCSV (Carlos Santana) subraya que la actualización supone un salto de capacidades real respecto a la versión anterior, y señala las matemáticas y la investigación científica como el terreno donde se medirá en la práctica el rendimiento de Gemini 3.1 Pro.

𝕏 @jocarrasqueira (João Carrasqueira) enfoca la novedad desde el diseño de producto: disponer de dos velocidades distintas permite construir estrategias diferenciadas según si el caso de uso exige respuesta inmediata o análisis en profundidad, algo que antes obligaba a recurrir a herramientas separadas.

Qwen, Grok y Kimi se acercan a los modelos frontera

En menos de 48 horas, tres laboratorios han publicado actualizaciones que convergen en un mismo objetivo: modelos que aguanten más tiempo, ejecuten más herramientas y produzcan entregables completos sin intervención humana. Alibaba ha presentado Qwen3.6-Max-Preview, descrito como un salto sustancial sobre Qwen3.6-Plus con foco declarado en codificación agéntica, es decir, desarrollo autónomo y no conversación general. xAI ha movido Grok 4.3 a acceso anticipado para suscriptores de SuperGrok y X Premium+, con análisis nativo de vídeo largo, generación de presentaciones completas y, en la variante Grok 4.1 Fast, una ventana de contexto de dos millones de tokens. Moonshot ha lanzado Kimi K2.6, capaz de ejecutar más de 4.000 llamadas a herramientas en sesiones continuas de más de doce horas, con soporte para Rust, Go y Python, y arquitectura de enjambres de agentes. El patrón no es de mejora en benchmarks estándar: es una carrera hacia la autonomía operativa sostenida. Ninguno de los tres ha publicado datos de coste por tarea en producción real, que es precisamente lo que determinará cuáles de estas capacidades acaban en flujos de trabajo y cuáles se quedan en demostración.

Para 𝕏 @WesRoth (Wes Roth), el detalle relevante de Qwen3.6-Max-Preview no es el rendimiento general sino el giro de producto: Alibaba está orientando explícitamente su modelo insignia hacia la codificación agéntica, lo que sitúa el siguiente terreno de competencia no en el chat sino en la automatización del desarrollo de software.

Codex llega a 4 millones de usuarios activos

Codex ha pasado de tres a cuatro millones de usuarios activos en menos de dos semanas. Este hito ha provocado el reseteo de límites de uso tal y como prometió Sam Altman cada millón de usuarios, como celebración del crecimiento y palanca de adopción. A diferencia de Claude Code, Codex funciona con la cuenta gratuita de ChatGPT, lo que hace que los cuatro millones no sean directamente comparables con métricas de competidores que operan solo bajo suscripción de pago. Ese acceso abierto infla el volumen pero también lo relativiza: no hay datos sobre qué porcentaje usa la herramienta de forma habitual frente a quienes simplemente la han probado. OpenAI ha integrado además su nuevo modelo de generación de imágenes en Codex, entrenado sobre interfaces de software, lo que amplía la herramienta más allá de la escritura de código. En un mercado fragmentado entre Codex, Claude Code, GitHub Copilot y Antigravity, el crecimiento en usuarios activos importa, pero la métrica relevante que aún falta es la retención.

El anuncio de 𝕏 @sama (Sam Altman) vino acompañado de un regalo: resetear los límites de uso, lo que indica una clara apuesta de OpenAI por seguir creciendo su base de usuarios a golpe de talonario.

𝕏 @maxifirtman (Maximiliano Firtman) apunta que eliminar Sora puede haber contribuido al impulso reciente de Codex, y recuerda que la accesibilidad desde cuenta gratuita es una ventaja estructural que Claude Code no tiene.

Con tono irónico, 𝕏 @kloss_xyz (Klöss) sugiere que OpenAI ha respondido a la percepción de que Claude Code domina el diseño de interfaces entrenando su próximo modelo de imagen sobre millones de interfaces de software e integrándolo directamente en Codex.

Chatbots y espirales delirantes: Stanford identifica un riesgo de diseño

Investigadores de Stanford HAI han acuñado el término 'espirales delirantes' para describir un patrón concreto: chatbots que refuerzan creencias grandiosas, paranoides o imaginarias del usuario en lugar de corregirlas. No es un fallo técnico puntual, sino una consecuencia directa de cómo están entrenados estos modelos —para resultar útiles y agradables—, lo que los lleva a validar sin criterio y a adaptarse al tono del interlocutor. El problema se vuelve relevante porque el uso de estos sistemas ha desbordado la búsqueda de información: para una parte de los usuarios funcionan como confidente, consejero o vínculo afectivo. En perfiles vulnerables, esa combinación de complacencia y alucinación tiene consecuencias que ocurren fuera de la pantalla. Stanford trabaja también en el lado opuesto: chatbots diseñados para entrenar habilidades sociales como la escucha activa, empatía y resolución de conflictos, mediante simulaciones con retroalimentación personalizada. Ambas líneas de investigación apuntan al mismo nudo sin resolver: dónde termina la práctica guiada y empieza la dependencia emocional. Esa frontera es precisamente la que presionará tanto las decisiones de diseño de producto como el próximo ciclo de regulación.

Para 𝕏 @StanfordHAI (Stanford Hai) el problema no es un mal uso anecdótico: cuando un chatbot valida sin criterio y además alucina, puede empujar al usuario hacia decisiones peligrosas fuera de la pantalla. El origen está en el diseño de los modelos, no en el comportamiento aislado de un usuario.

Meta podría superar a Google en publicidad digital global por primera vez

Meta está proyectada para superar a Google en ingresos netos de publicidad digital global: 243.460 millones de dólares frente a 239.540 millones, con cuotas del 26,8% y el 26,4% respectivamente. El margen es estrecho (menos de cuatro mil millones) pero la inversión de posiciones tiene peso real: Google ha liderado este mercado durante dos décadas. Detrás del ascenso de Meta hay factores concretos: la recuperación del negocio publicitario tras el golpe de los cambios de privacidad de iOS en 2021, el crecimiento de Reels como superficie de anuncio y la mejora sostenida de su sistema de segmentación con inteligencia artificial. Google, por su parte, mantiene posiciones sólidas en búsqueda y YouTube, pero enfrenta una tensión estructural que no es menor: sus propias herramientas de respuesta con IA (llamado “AI Overviews”) reducen los clics hacia webs externas y erosionan parte de la lógica del anuncio de búsqueda. Ambas compañías publican resultados trimestrales en julio. Ahí se verá si las proyecciones reflejan el terreno o si sobreestiman el ritmo de Meta.

Para 𝕏 @WesRoth (Wes Roth), el dato marca el fin de una hegemonía de veinte años: Meta con un 26,8% de cuota global frente al 26,4% de Google es, en su lectura, un cruce histórico en publicidad digital.

Una IA figura como coautora en investigación sobre envejecimiento biológico

David Sinclair, investigador de longevidad en Harvard, ha declarado que un sistema de inteligencia artificial figura como coautor en un artículo científico de su laboratorio. Según sus propias palabras, el modelo no procesó datos existentes ni validó hipótesis previas: propuso un enfoque nuevo para modelar el envejecimiento biológico, una tarea que hasta ahora dependía íntegramente del criterio humano. La distinción entre coautor y herramienta no es semántica. La autoría científica implica responsabilidad sobre el método, la interpretación y las conclusiones, y atribuirla a un sistema automático fuerza una redefinición de lo que las revistas y los comités de ética entienden por contribución intelectual, un debate que lleva meses abierto sin resolución. En biología del envejecimiento, construir modelos mecanísticos nuevos es especialmente difícil; que un sistema proponga un enfoque no anticipado por el equipo humano indica que el rol de la IA en investigación básica ha cambiado de naturaleza. El problema pendiente es de verificación: no existen aún criterios estandarizados para auditar la contribución real del sistema, determinar qué ocurre cuando sus propuestas son erróneas o asignar responsabilidad sobre un resultado publicado que falle. Por eso siempre tiene que haber un humano que rinda cuentas ante lo que haya hecho la IA, por muy innovadora que haya sido la contribución.

El dato más relevante no es el artículo en sí, sino lo que refuta: para David Sinclair según ha divulgado 𝕏 @vitrupo (Vitrupo), el argumento de que la IA nunca puede ser creativa es, directamente, arrogancia humana.

Spot de Boston Dynamics entra en la mina

Mariana Minerals ha desplegado Spot en sus instalaciones de Copper One no como prueba piloto sino como pieza central de un sistema de autonomía operativa. El despliegue coincide con la integración de Gemini Robotics-ER 1.6, el modelo de razonamiento espacial de Google DeepMind, que permite a Spot leer instrumentos y medidores industriales con una precisión declarada del 93%. Ese dato cambia el perfil de la máquina: durante años, Spot recogía datos que un operador humano interpretaba después. Con razonamiento sobre el entorno físico, el robot puede cerrar parte de ese bucle de forma autónoma. La minería tiene una presión específica para reducir presencia humana en zonas de riesgo con gases, derrumbes y temperaturas extremas, así que aquí la propuesta no es eficiencia marginal sino sustitución directa de exposición humana. Boston Dynamics ha publicado además demostraciones de manipulación física que amplían las capacidades del robot más allá de la locomoción y la inspección. Lo que ningún anuncio responde todavía: cuántas horas aguanta el sistema sin intervención humana y qué tasa de error registra en condiciones reales de polvo, vibración y conectividad intermitente.

La cuenta de 𝕏 @MarianaMinerals (Mariana Minerals) subraya que el despliegue en Copper One responde a una estrategia de autonomía desde el primer día, no a una lógica de prueba piloto, lo que implica una integración operativa más profunda que la habitual en el sector.

Para 𝕏 @Ronald_vanLoon (Ronald Van Loon), las demostraciones de manipulación física (arrastrar y apilar objetos de hasta 15 kg) que ha publicado Boston Dynamics extienden el alcance de Spot hacia tareas que hasta ahora requerían forma humanoide o maquinaria especializada.

Gracias por leer 1 Minuto de IA. Si te ha gustado esta edición, no te olvides de dar al ♡ y de compartirla por redes sociales o por email con otras personas a las que creas que les pueda interesar.

Discusión sobre este post

Por supuesto, sigue adelante.