На конференции Google I/O 2026 компания официально представила Gemini Omni – новую мультимодальную модель искусственного интеллекта, которая объединяет генерацию контента, редактирование медиа и логическое рассуждение в единой системе. Первой версией нового продукта стала Gemini Omni Flash, ориентированная прежде всего на создание и редактирование видео. Об этом пишет Techradar.

Как Gemini Omni меняет создание видео?

По замыслу Google, эта система должна упростить производство видеоконтента настолько, чтобы им могли пользоваться не только профессиональные монтажеры, но и обычные пользователи без опыта работы со сложными редакторами.

Главная особенность Gemini Omni Flash заключается в универсальности. Система способна работать практически с любым типом входных данных: текстовыми описаниями, изображениями, аудиофайлами или уже готовыми видеозаписями.

Google Хотите ежедневно читать оперативные и качественные новости Добавьте 24 Канал в избранное в Google Добавить

Фактически Google стремится создать платформу, где достаточно просто описать желаемый результат на естественном языке, а модель самостоятельно сгенерирует или изменит ролик.

Gemini Omni Flash уже начали интегрировать в приложение Gemini, платформу Google Flow, сервис YouTube Shorts и редактор YouTube Create. Впоследствии доступ к технологии получат корпоративные клиенты и разработчики через отдельные API.

Этот запуск стал логическим продолжением развития мультимодальных инструментов Google. В 2025 году компания уже расширила возможности генерации изображений благодаря Nano Banana, который использовался для реставрации старых фотографий и создания детализированных концептов из обычных набросков.

Одной из самых амбициозных функций Gemini Omni стала концепция "разговорного редактирования". Вместо работы с таймлайнами, слоями, эффектами и техническими панелями пользователь просто объясняет системе, что нужно изменить. Например, можно попросить изменить фон сцены, скорректировать движение объекта или изменить освещение.

Как пишет Techcrunch, при этом Google заявляет, что система способна сохранять целостность кадра между изменениями. Это означает, что персонажи остаются узнаваемыми, сцены не "ломаются" после нового запроса, а движения выглядят естественно.

Отдельное внимание уделили физической достоверности. Gemini Omni лучше моделирует гравитацию, инерцию и взаимодействие объектов. Именно поэтому система может создавать сложные визуальные эффекты – например, зеркальную поверхность, которая ведет себя как жидкость после прикосновения, или скульптуры, формирующиеся из мыльных пузырей.

Конкуренция на рынке AI-видео обостряется

Выход Gemini Omni происходит на фоне стремительной конкуренции между технологическими компаниями в сфере генеративного видео. Сегодня борьба идет не только за качество результата, но и за простоту использования. Большинство современных AI-генераторов все еще требуют точных технических промптов или сложной ручной доработки.

Google делает ставку именно на интуитивность. Компания хочет, чтобы взаимодействие с генератором напоминала обычную беседу, где пользователь постепенно уточняет пожелания, а модель адаптирует результат в реальном времени. В будущем Gemini Omni должна выйти далеко за пределы работы только с видео. Google сообщила, что следующие версии смогут сочетать фотографии, текстовые подсказки, музыкальное сопровождение и референсные видеоматериалы в единый комплексный проект.

Как Google решает проблему доверия к AI-контенту?

Вместе с новыми возможностями возникает и вопрос прозрачности. Google отмечает, что весь контент, созданный через Gemini Omni, автоматически будет маркироваться с помощью технологии SynthID. Это цифровая водяная маркировка позволяет определить, что материал был создан искусственным интеллектом.

Кроме того, инструменты проверки интегрируют в Gemini, браузер Chrome и поисковую систему Google. Еще одно важное направление – цифровые аватары. На старте пользователи смогут создавать собственные видеоаватары с использованием собственного голоса.

В то же время Google осторожно подходит к более сложным функциям изменения речи или глубокой модификации личности в кадре. В компании отмечают, что такие возможности пока проходят дополнительную проверку с точки зрения безопасности.

Этот подход демонстрирует главный вызов современного AI-рынка: создание все более мощных инструментов должно сопровождаться не менее серьезными механизмами контроля и проверки.