La edición de video con inteligencia artificial dio un nuevo salto con la llegada de Gemini Omni, el nuevo sistema de Google capaz de crear y modificar videos utilizando únicamente lenguaje natural.
La herramienta permite que cualquier usuario describa los cambios que desea realizar en un video mediante texto, sin necesidad de conocimientos técnicos ni software especializado.
Qué es Gemini Omni y por qué representa un cambio para la edición de video
Gemini Omni es el primer modelo multimodal de Google diseñado para recibir distintos tipos de entrada —texto, audio, imágenes y video— y generar resultados integrados a partir de esa combinación.
Antes de Omni, herramientas de generación de video como Veo requerían instrucciones extremadamente detalladas para producir resultados precisos.
Ahora, el nuevo modelo desarrollado por Google DeepMind puede interpretar el contexto y completar automáticamente detalles visuales utilizando razonamiento basado en historia, física, cultura y ciencia.
Por ejemplo, un usuario puede solicitar: “explica visualmente la diferencia entre computación clásica y computación cuántica”, sin describir cada escena o movimiento de cámara.

Gemini Omni recuerda cambios y mantiene coherencia visual
Una de las principales innovaciones del modelo es su capacidad de memoria contextual.
Esto significa que cuando el usuario modifica un video mediante varias instrucciones consecutivas, el sistema recuerda los cambios anteriores y mantiene coherencia visual entre personajes, escenarios y elementos gráficos.
De acuerdo con la guía técnica publicada por Google DeepMind, el flujo de trabajo funciona como una conversación continua.
El usuario puede subir un video o generar uno desde cero y posteriormente realizar cambios progresivos mediante texto.

Cómo funciona la edición de video con lenguaje natural
El sistema permite realizar distintos tipos de edición avanzada utilizando instrucciones simples.
Cambios específicos en objetos y personajes
Los usuarios pueden modificar elementos concretos sin alterar el resto de la escena.
Por ejemplo, una instrucción como “cambia la mariposa por una abeja” transforma únicamente ese objeto. Después, el usuario puede continuar con otro comando como “convierte la abeja en un enjambre de luciérnagas”.
Gemini Omni entiende lenguaje cinematográfico profesional
El modelo también interpreta términos técnicos reales utilizados en producción audiovisual.
Entre los movimientos y estilos de cámara compatibles destacan:
- “push in”
- “dolly zoom”
- “static”
- “locked off”
- “film camera”
- “webcam style”
Además, el sistema permite experimentar sin necesidad de dominar conceptos cinematográficos avanzados.

IA combina video, imágenes y audio al mismo tiempo
Otra de las capacidades más relevantes de Gemini Omni es la sincronización de múltiples entradas.
El modelo puede combinar simultáneamente:
- Videos
- Imágenes de referencia
- Archivos de audio
- Texto descriptivo
Google documentó ejemplos donde aves en movimiento forman figuras basadas en imágenes de referencia mientras sincronizan sus movimientos con audio específico.
Gemini Omni también puede transformar estilos visuales
Los usuarios pueden mantener el movimiento original de un video y cambiar completamente su apariencia visual.
Entre los estilos compatibles destacan:
- Anime
- Claymation
- Acuarela
- Estilo cinematográfico
- Apariencia realista
Asimismo, el sistema puede generar videos completos a partir de storyboards construidos con imágenes estáticas.

Cómo escribir mejores prompts para Gemini Omni
La guía técnica de Google DeepMind recomienda incluir detalles específicos para lograr resultados más precisos.
Los elementos clave que procesa el modelo son:
- Encuadre y movimiento de cámara
- Estilo visual
- Iluminación
- Locación
- Acción y movimiento de personajes
Mientras más contexto proporcione el usuario, mayor control tendrá sobre el resultado final.

Dónde está disponible Gemini Omni en México
Gemini Omni Flash ya está disponible en México mediante distintas plataformas.
Plataformas gratuitas
- YouTube Shorts
- YouTube Create
Plataformas con suscripción
- Gemini
- Google Flow
En estos casos se requiere un plan Google AI Pro o Ultra.
Además, Google anunció que próximamente liberará APIs para desarrolladores y clientes empresariales.
Videos creados con IA tendrán marca invisible de Google
Todos los videos generados mediante Omni incluirán la tecnología SynthID.
Esta herramienta desarrollada por Google permite identificar contenido generado con inteligencia artificial mediante marcas de agua invisibles.
Los videos podrán verificarse desde la app Gemini, el navegador Chrome y la Búsqueda de Google.
Google prepara nuevas funciones para Gemini Omni
Google confirmó que Gemini Omni Flash será solo el primer integrante de esta nueva familia de modelos.
La empresa adelantó que próximamente la plataforma podrá generar imágenes y audio, además de video.
También trabaja en herramientas de avatar digital y edición de voz mediante IA, aunque estas funciones todavía permanecen en fase experimental.
Según Koray Kavukcuoglu, el objetivo central del proyecto es combinar razonamiento avanzado con creatividad generativa para que la inteligencia artificial “entienda” qué debe ocurrir dentro de una escena y lo construya automáticamente.
*OCR









