Una Historia de Caída y Ascenso#
Cuando se habla de grandes remontadas uno piensa en el PSG vs Barcelona del 2017, en Robert Downey Jr., en Kasparov vs Topalov, o en el Apolo 13. Yo añadiré otra a mi lista personal: Google vs OpenAI (Microsoft). Porque es realmente impresionante lo desfavorable que era la posición de Google en IA hace unos pocos años, en comparación con el liderazgo que sostiene hoy.
Durante la época del 2019 al 2023, Google (el inventor del Transformer) no podía permitirse quedar por detrás de una startup que hace nada era una non-profit. Así que respondía a cada lanzamiento llamativo de OpenAI con un prototipo interno.
Presentaron Meena como respuesta a GPT-2, LaMDA como respuesta a GPT-3 y PaLM como respuesta a GPT-3.5.
Mostraron Imagen y Parti frente a DALL·E 2, e incluso MusicLM y AudioLM frente a Jukebox.
Pero cuando salió ChatGPT (o GPT-3.5-turbo), la popularidad era tan abrumadora que un prototipo interno no bastaba. Google se vio obligado a sacar un modelo al público general: Bard, en febrero del 2023. Y Bard falló. Era inusable en comparación con ChatGPT.
Ahí descubrimos que Google, a pesar de tener talento, cómputo y datos, no tenía modelos listos para competir.
Algo importante a mencionar es que todos esos lanzamientos listados previamente provenían de Google Research (tambien conocido como Google AI), organizacion con varios grupos internos, siendo el más importante Google Brain.
¿Y DeepMind? Pues, luego de ser adquirido en 2014, el laboratorio mas prestigioso de IA operaba con bastante independencia. Tenían su propio research y sus propios modelos: toda la serie Alpha, Gopher, Chinchilla, Sparrow, Flamingo…
La respuesta de Sundar Pichai, sin embargo, fue rápida, dos meses después del fracaso de Bard. Google anunció la fusión entre DeepMind y Google Brain formando Google DeepMind.
Y en julio, Sergey Brin (uno de los fundadores de Google) volvió a trabajar activamente en la compañía, colaborando con los equipos de IA. A partir de ahí, todo empezó a ir cuesta arriba.
En diciembre del 2023 salió la serie Gemini, con una demo falsa… pero con un modelo real que, al menos, no apestaba.
En febrero del 2024 llegó Gemini 1.5 Pro, con una ventana de contexto de un millón de tokens, muy prometedor. Ese mismo año iniciaron Gemma, su línea de modelos open source.
En el Google I/O del 2024 presentaron Gemini 1.5 Flash, con rendimiento decente y precio súper competitivo; lanzaron Veo 1 (todavía lejos de Sora) e Imagen 3 (muy buen modelo).
Trajeron de vuelta a Noam Shazeer en septiembre y, en diciembre del 2024, lanzaron la serie Gemini 2, ya sin mucho que envidiar a la competencia: multimodalidad nativa, demos casi reales (esta vez sí), acceso gratuito en aistudio.com y un Veo 2 finalmente competitivo con el estado del arte.
Y en 2025… ahí empezó la verdadera remontada.
Llegó Gemini 2.5, líder de muchos benchmarks durante meses y el mejor editor de imágenes del momento. Veo 3 se convirtió en el mejor generador de video y Genie 3 sorprendió a todos como un verdadero simulador de mundos, capaz de renderizar video en tiempo real condicionado por un joystick, como un videojuego (nadie está cerca de eso). Fue, personalmente, mi anuncio favorito del año.
A diciembre de 2025, tras la decepción de GPT-5, Google se posiciona en la cima con Gemini 3 Pro.
Sin duda, una remontada épica.
