08 - La Emisora Que Veo

La Emisora Que Veo#

Creo que en la historia reciente de la IA no hemos visto un flexeo tan grande como el de Sora. Estamos en febrero del 2024. Tras el éxito de la generación de imágenes con IA, había un enorme interés en conseguir algo equivalente en vídeo. Muchas startups lo estaban intentando, y se estaba invirtiendo sumas importantes de dinero.

La calidad avanzaba poco a poco. Ya quedaba atrás el infame Will Smith comiendo spaghetti de marzo del 2023 generado con ModelScope. Los vídeos empezaban a verse mejor, aunque muchos no eran más que paneos con ligero movimiento. El 2023 cerró con Runway liderando el closed source con Gen-2 y con Stability AI a la cabeza del open source con Stable Video Diffusion.

Hasta que, en febrero del 2024, OpenAI flexeó algo absolutamente impactante: Sora. Tenia una consistencia ilógica, una calidad ilógica, acciones dentro de los clips ilógicas, las generaciones duraban hasta un minuto. Todo era ilógico. Ni siquiera lo llamaron “generador de vídeo”, lo presentaron como un generador de mundos.

¿Cómo era posible que un solo laboratorio tuviera tanta ventaja? Y recalco: el vídeo no era un área abandonada. Había muchísimo dinero y muchos equipos trabajando.

El efecto Sora fue inmediato: todo el mundo retrocedió un paso, a replantearse sus objetivos y estrategias. Si antes había dudas sobre qué tan lejos podía llegar el video IA, ahora todos sabíamos que esta calidad era posible. Las startups y el ecosistema open source se pusieron manos a la obra.

En pocos meses vimos una ola de lanzamientos de la competencia.

Lanzamientos de la competencia
  • Kling en China (junio)
  • Luma AI entrando al vídeo con Dream Machine (junio)
  • Runway anunciando Gen-3 (junio)
  • PikaLabs v2 (julio)

Incluso algunas grandes corporaciones se vieron obligadas a mostrar demos de cosas que claramente no estaban listas, como Veo 1 de Google o MovieGen de Meta, solo para dejar claro que “no estaban tan atrás”.

Mientras tanto, el OSS avanzó rapidísimo gracias a todas las técnicas heredadas de la generación de imágenes: DiT, flow matching, rectified flow, etc. Tuvimos Open Sora, LTX-Video, CogVideoX y, hacia la fecha actual, Wan 2.2 de Alibaba probablemente sea lo mejor del ecosistema abierto.

Podríamos imaginar que OpenAI aprovecharía ese tiempo para dominar el mercado en solitario. Pero… no. Excepto por algunos directores de cine seleccionados, nadie tuvo acceso real al modelo original de Sora. Al parecer el modelo era demasiado grande y demasiado costoso de servir, pero lo ocultaron detrás del discurso de la “seguridad” y los riesgos asociados con generar video con ese nivel de realismo.

Diez meses después del anuncio, en diciembre del 2024, dieron acceso a los suscriptores de ChatGPT a sora-turbo, una versión muy inferior. ¿Dónde estaba la consistencia? ¿Dónde estaba el minuto de vídeo? ¿Dónde estaba la calidad? Bueno, había algo de estética… pero en líneas generales sora-turbo fue un fracaso rotundo.

Quien realmente se llevó toda la gloria fue Google. Anunciaron Veo 3 en mayo del 2025 durante el Google I/O: un salto enorme, calidad ampliamente superior, disponible inmediatamente, con audio integrado. El rey. Las redes sociales explotaron. Se llenaron de memes, bromas y videos virales hechos con Veo 3. Fue el primer producto de IA verdaderamente viral de Google, y le ganaron la carrera a OpenAI.

MidJourney se unió a la fiesta más tarde, en junio, con su estilo y estética característica. Es impresionante pensar que esta startup bootstrappeada proyecta 500 millones de dólares en ingresos para 2025.

El resto del año estuvo marcado por actualizaciones constantes de todos los competidores del campo del vídeo: Kling, Hailuo, Luma, Runway… Incluso Google reforzó su liderato sacando Veo 3.1.

La integración del vídeo IA en el contenido audiovisual#

El vídeo generado por IA ha alcanzado un nivel suficientemente bueno para ser consumido, pero todavía no ha logrado integrarse por completo en todos los tipos de contenido audiovisual.

El cine, los largometrajes, las series y los documentales aún no lo han adoptado. Las razones podrían ser varias: pequeños detalles de calidad, limitaciones de duración, falta de control fino en los modelos propietarios que superan al OSS… o quizás simplemente la propia lentitud de la industria cinematográfica. Honestamente, no lo sé.

En YouTube se ha adoptado ligeramente, sobre todo como material ilustrativo. Donde realmente el contenido IA de video encontró refugio fue en el formato corto: TikTok, Reels, Shorts. Suficientemente corto como para generarse con uno o un par de prompts. Suficientemente banal como para que sus errores ni siquiera ameriten queja.

La máquina de AI slop infinito#

Las plataformas de contenido corto se llenaron de vídeos IA. Sabíamos que, en algún momento, alguien lanzaría una red social exclusivamente para vídeos generados con IA. La duda era quién y cuándo. La respuesta vino de dos lugares inesperados: Meta y OpenAI, casi en la misma semana, en septiembre del 2025.

Meta lo hizo primero con Vibes, un feed de vídeos IA dentro de su app Meta AI. Como no contaban (ni cuentan actualmente) con un modelo de video propio competitivo, decidieron usar el de MidJourney.

Por su parte, OpenAI lanzó una red social completa, exclusiva y en condiciones, que funcionaba usando al tambien nuevo Sora 2, un modelo muy bueno y con un enfoque evidente en contenido para redes sociales. Al igual que Veo 3, podía generar audio y vídeo en conjunto. Pero la característica que lo convirtió en un fenómeno viral fueron los cameos: cualquier persona podía escanearse y pedir a Sora 2 que generara un vídeo con ella en cualquier situación.

A los pocos días del lanzamiento, internet se llenó de videos de celebridades haciendo cosas absurdas. No era algo imposible antes, pero ahora era más fácil que nunca… y gratuito.

No tengo más información sobre cómo le está yendo a Sora, su base de usuarios o la dinámica interna de esa red social. Puedo adentrarme en megalaberintos para traerles información, pero no voy a meterme a un basurero.