Уже говорил про Veo 3 и Sora 2, пришло время третьего кита американского ИИ-строительства – Grok.
Сравнивать Grok с Veo 3 в генерации реалистичных видео нет смысла, т.к., во-первых, разница в качестве весьма серьезная (а скоро должен выйти Veo 3.1, там обещают просто космические технологии), а во-вторых, и в цене разница принципиальная. А вот в аналоги Sora продукт однозначно записать можно.
Так что лучше, Grok или Sora?
Давайте сравнивать.
🎞 Качество: 6 «живых» секунд
На мой взгляд, с точки зрения мультяшной анимации Grok сильно выигрывает.
Он лучше:
— Читает стиль и не ломает его от кадра к кадру.
— Анимирует детали, оживляя даже мелочи.
— Движения выходят более живыми и естественными.
Но есть и минус: если Sora может генерировать ролики продолжительностью до 15 секунд, то Grok генерирует только 6 (наверняка долго ждать увеличения продолжительности не придется).
При этом ограничение легко обходится генерацией нового ролика с последнего кадра предыдущего. Сгенерировали 6 секунд -> скопировали последний кадр -> начиная с него генерируем новые 6 секунд (так сделан ролик в шапке). Так же нейросети работают не идеально, часто можно встретить артефакты или просто плохо сгенерированное видео. Вероятность появления проблем в 15 секундах в 2.5 раза больше, чем в 6.
Но все же два реальных минуса в ограничении продолжительности есть:
Если нужен ролик с озвучкой – приходится разбивать реплики на короткие куски. В 6 секунд не так много слов можно уместить;
Техника генерации видео с последнего кадра имеет свои ограничения. Нейросеть «не помнит», что вы генерировали в прошлый раз. Следовательно, каждые 6 секунд вы будете получать случайный голос и случайную генерацию деталей, которых нет в кадре. Во втором ролике как раз показал эти нюансы. 6 секунд заканчиваются, когда персонаж стоит спиной к камере. ИИ «не помнит» лица персонажа и придумывает его сама. Если бы ролик сгенерировали сразу на 15 секунд – таких проблем не было бы.
💵 Цена: чуть дороже, но не критично
Минимальная подписка на Grok стоит 30$, подписка от OpenAI – 20$. Не сказать, что разница существенная, но помимо генерации видео мы в обоих случаях получаем еще и генерацию изображений, и языковую модель. По двум последним параметрам OpenAI, на мой взгляд, выигрывает.
⚖️ Авторские права и дипфейки: полная свобода (почти)
В Sora есть неприятные ограничения:
— нельзя генерировать известных персонажей, правообладатели которых запретили это делать;
— запрещено анимировать реальных людей (есть список исключений + можно верифицировать себя через приложение – и тогда ролики с собой можно будет делать).
Если первое ограничение никак не мешает в работе (мы же не будем делать курсы с Человеком-пауком), то второе весьма неприятно.
В Grok таких проблем нет – генерируй все что хочешь.
🎭 Дополнительные фишки: Normal, Fun и… Spicy
Помимо стандартного режима, в котором ты пишешь промпт и получаешь видео, есть еще три дополнительных:
— Normal. Нейросеть анализирует, что изображено на картинке, и пытается придумать адекватный сюжет на 6 секунд. Пользы режима я не понял.
— Fun. Здесь ИИ пытается придумать что-то максимально глупое и смешное. Чаще всего (почти всегда) получается ерунда, но можно подсмотреть интересные идеи по анимации деталей.
— Spicy. Ну, вы понимаете… Другие нейросети отказываются генерировать – а тут отдельный режим. Под «спайси» подразумевается что-то на уровне «Спасателей Малибу».
Прямого применения в e-learning, конечно, нет, но этот факт отлично демонстрирует главное — идеологическую свободу платформы.
(а вот маркетплейсы, наверняка, скоро заполнят толпы «девушек», бегущих по пляжам в замедленном режиме)
Итог
Grok — это не про реализм, а про креатив.
За сравнительно небольшой бюджет он позволяет делать видео, которые цепляют.
Пусть пока 6 секунд, но эти 6 секунд живее, чем 15 у Sora.
Для e-learning — идеальный баланс: быстро, недорого, ярко.
До встречи на конференции «Digital Learning 2025: итоги года»!
Алексей Миляев и команда сообщества Digital Learning