Хотя это выглядит простовато, пятисекундное видео создаётся на iPhone 16 Pro Max всего за пять секунд, что вполне подходит для небольших анимированных стикеров.
Используется Stable Diffusion 1.5 и VAE декодер из Open-Sora, которые были значительно оптимизированы, обеспечив значительное ускорение: в 10 раз для первой и в 50 раз для второй. Хотя модели старые и не самые современные, если кто-то применит такой же агрессивный подход к оптимизации к моделям вроде Hunyuan или другим доступным видео-моделям, это может сильно ухудшить качество.
💪🏽 Напомним, что всего пять лет назад подобное было невозможно. Тогда даже самые простые текстовые модели требовали огромное количество видеопамяти и мощную видеокарту для работы.