Когда картинки мало: где нейросеть учится двигаться - Боты и программы Вконтакте

Когда картинки мало: где нейросеть учится двигаться

Списки. Все любят списки. Топ-5, топ-10. Зашел, скопировал, забыл. С изображениями так и происходит. Нашел генератор, сгенерировал женщину с шестью пальцами, посмеялся и закрыл вкладку. Настоящая работа начинается там, где статика заканчивается. Где нужно не просто нарисовать, а оживить. Или оживить уже снятое. Вот здесь пролегает настоящая пропасть между игрушкой и инструментом. И эту пропасть закрывают очень немногие. Большинство сайтов, что хвастаются ИИ для картинок, о видео молчат. Потому что сложно. В разы.

Почему? Картинку можно сгенерировать один раз. Или десять раз, пока не устроит. Видео — это последовательность. Двадцать четыре, тридцать, шестьдесят кадров в секунду. И они должны быть консистентны. Герой не должен менять лицо, куртка — цвет, тени — прыгать. Для нейросети это адская задача. Она ведь не помнит, что было на предыдущем кадре. Она каждый раз начинает почти с нуля. Решение? Дорогие и сложные модели, которые как раз учатся этой самой консистентности. Они следят за «семенами», за тенями, за ключевыми точками. И потому сервисов, где с постоянными обновлениями есть видеообработка, мало. Это штуки уровня не «для всех», а для тех, кто готов вникнуть.

Возьмем, к примеру, нейро-дорисовку заднего плана в видео. Классическая задача: снимали интервью, а за спиной говорящего бардак. Хочется заменить на нейтральную стену. Старыми методами — это ручной трекинг и кропотливая заливка кадр за кадром. Теперь можно сделать маску на первом кадре, запустить алгоритм, и он попытается «распространить» эту правку на всю сцену. Но здесь машина спотыкается на мелочах. Был случай: интервью с жестянщиком в гараже. За спиной — верстак с инструментами. Решили заменить на кирпичную стену. Алгоритм работал, но на каждом резком движении рук человека, когда он что-то показывал, кирпичная текстура «плыла», на мгновение проявлялись контуры забытого на верстаке ключа. Потому что ИИ воспринял движущуюся руку и статичный ключ как часть одного фона. Пришлось вручную ставить трекер на этот самый ключ, чтобы алгоритм его «запомнил» как отдельный, не трогаемый объект. Помогло.

Лично я терпеть не могу, когда ИИ-видео используют для примитивных анимаций стиля «ожившее фото». Получается жутковато. Как кукла. Но как инструмент для устранения дефектов — это чудо. Авто-стабилизация ролика, снятого на ходу. Удаление мерцания люминесцентных ламп. Даже простая нейро-интерполяция кадров для замедления. Вещи, на которые уходили часы рендера и знание специального софта, теперь доступны в браузере. Просто нажимаешь кнопку «Slow Mo» и выбираешь «AI-powered». И ждешь. И часто результат впечатляет.

Генерация видео с нуля по тексту — это пока другая вселенная. И очень сырая. Короткие петли, мутанты, фантасмагорические переходы. Но уже работает. Это как ранние GAN’ы для изображений пять лет назад. Первые шаги. Скоро и тут все изменится. Но сегодня реальную пользу несут именно редакторы. Инструменты для работы с уже отснятым материалом.

А что с фото? С ними-то все ясно. Генерация, ретушь, расширение. Но тут есть нюанс, который в видео еще острее. Качество на выходе. Онлайн-генераторы любят экономить на вас. Отдают сжатые jpeg’и с артефактами. Для соцсетей сойдет. Для полиграфии или большого экрана — нет. Всегда ищите опцию «Max Quality», «Lossless» или «Pro preset». Если ее нет — сервис не профессиональный. Это правило. Мое правило.

Иногда смотрю на эти обновления. Каждую неделю что-то новое. Вчера дорисовка фона, сегодня — пересинхронизация губ под другой язык. А завтра? Завтра, наверное, будет полный перенос стиля одного видео на другое. Это тема для отдельного разговора. И для новой головной боли с авторскими правами.

В конце концов, все сводится к простому. Нужно ли вам просто развлечься с картинками — сайтов полно. Нужно ли вам работать с видео, где каждый кадр на счету, где важна стабильность и контроль — выбор резко сужается. До двух-трех вариантов. Где есть настоящие, а не игрушечные, модели. Где можно загрузить ProRes, а не только телеграм-сжатый файл. Где есть продвинутые настройки, а не одна кнопка. Их ищите. Время генераторов картинок прошло. Наступает время генераторов смысла. Движущегося смысла.

Автор статьи:
Андрей Графов, видеодизайнер и VFX-артист, с 2009 года участвовал в создании рекламных роликов для крупных брендов, лично «обучил» кастомную нейросеть для удаления логотипов из архивного кино, консультирует студию мобильного контента по пайплайнам с ИИ-обработкой.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *