Google lanza Gemini Omni: la IA que edita videos con solo escribir instrucciones

Google presentó Gemini Omni, una inteligencia artificial capaz de crear y editar videos usando solo instrucciones escritas en lenguaje natural.

Por Redacción | 26 Mayo, 2026

Tecnología

Google lanza Gemini Omni: la IA que edita videos con solo escribir instrucciones

La edición de video con inteligencia artificial dio un nuevo salto con la llegada de Gemini Omni, el nuevo sistema de Google capaz de crear y modificar videos utilizando únicamente lenguaje natural.

La herramienta permite que cualquier usuario describa los cambios que desea realizar en un video mediante texto, sin necesidad de conocimientos técnicos ni software especializado.

Qué es Gemini Omni y por qué representa un cambio para la edición de video

Gemini Omni es el primer modelo multimodal de Google diseñado para recibir distintos tipos de entrada —texto, audio, imágenes y video— y generar resultados integrados a partir de esa combinación.

Antes de Omni, herramientas de generación de video como Veo requerían instrucciones extremadamente detalladas para producir resultados precisos.

Ahora, el nuevo modelo desarrollado por Google DeepMind puede interpretar el contexto y completar automáticamente detalles visuales utilizando razonamiento basado en historia, física, cultura y ciencia.

Por ejemplo, un usuario puede solicitar: “explica visualmente la diferencia entre computación clásica y computación cuántica”, sin describir cada escena o movimiento de cámara.

Gemini Omni recuerda cambios y mantiene coherencia visual

Una de las principales innovaciones del modelo es su capacidad de memoria contextual.

Esto significa que cuando el usuario modifica un video mediante varias instrucciones consecutivas, el sistema recuerda los cambios anteriores y mantiene coherencia visual entre personajes, escenarios y elementos gráficos.

De acuerdo con la guía técnica publicada por Google DeepMind, el flujo de trabajo funciona como una conversación continua.

El usuario puede subir un video o generar uno desde cero y posteriormente realizar cambios progresivos mediante texto.

Cómo funciona la edición de video con lenguaje natural

El sistema permite realizar distintos tipos de edición avanzada utilizando instrucciones simples.

Cambios específicos en objetos y personajes

Los usuarios pueden modificar elementos concretos sin alterar el resto de la escena.

Por ejemplo, una instrucción como “cambia la mariposa por una abeja” transforma únicamente ese objeto. Después, el usuario puede continuar con otro comando como “convierte la abeja en un enjambre de luciérnagas”.

Gemini Omni entiende lenguaje cinematográfico profesional

El modelo también interpreta términos técnicos reales utilizados en producción audiovisual.

Entre los movimientos y estilos de cámara compatibles destacan:

“push in”
“dolly zoom”
“static”
“locked off”
“film camera”
“webcam style”

Además, el sistema permite experimentar sin necesidad de dominar conceptos cinematográficos avanzados.

IA combina video, imágenes y audio al mismo tiempo

Otra de las capacidades más relevantes de Gemini Omni es la sincronización de múltiples entradas.

El modelo puede combinar simultáneamente:

Videos
Imágenes de referencia
Archivos de audio
Texto descriptivo

Google documentó ejemplos donde aves en movimiento forman figuras basadas en imágenes de referencia mientras sincronizan sus movimientos con audio específico.

Gemini Omni también puede transformar estilos visuales

Los usuarios pueden mantener el movimiento original de un video y cambiar completamente su apariencia visual.

Entre los estilos compatibles destacan:

Anime
Claymation
Acuarela
Estilo cinematográfico
Apariencia realista

Asimismo, el sistema puede generar videos completos a partir de storyboards construidos con imágenes estáticas.

Cómo escribir mejores prompts para Gemini Omni

La guía técnica de Google DeepMind recomienda incluir detalles específicos para lograr resultados más precisos.

Los elementos clave que procesa el modelo son:

Encuadre y movimiento de cámara
Estilo visual
Iluminación
Locación
Acción y movimiento de personajes

Mientras más contexto proporcione el usuario, mayor control tendrá sobre el resultado final.

Dónde está disponible Gemini Omni en México

Gemini Omni Flash ya está disponible en México mediante distintas plataformas.

Plataformas gratuitas

YouTube Shorts
YouTube Create

Plataformas con suscripción

Gemini
Google Flow

En estos casos se requiere un plan Google AI Pro o Ultra.

Además, Google anunció que próximamente liberará APIs para desarrolladores y clientes empresariales.

Videos creados con IA tendrán marca invisible de Google

Todos los videos generados mediante Omni incluirán la tecnología SynthID.

Esta herramienta desarrollada por Google permite identificar contenido generado con inteligencia artificial mediante marcas de agua invisibles.

Los videos podrán verificarse desde la app Gemini, el navegador Chrome y la Búsqueda de Google.

Google prepara nuevas funciones para Gemini Omni

Google confirmó que Gemini Omni Flash será solo el primer integrante de esta nueva familia de modelos.

La empresa adelantó que próximamente la plataforma podrá generar imágenes y audio, además de video.

También trabaja en herramientas de avatar digital y edición de voz mediante IA, aunque estas funciones todavía permanecen en fase experimental.

Según Koray Kavukcuoglu, el objetivo central del proyecto es combinar razonamiento avanzado con creatividad generativa para que la inteligencia artificial “entienda” qué debe ocurrir dentro de una escena y lo construya automáticamente.

*OCR