Несмотря на гигантский прогресс в нейросетях, который потенциально обещает нам переворот во всех сферах жизни, есть одно большое «но» во всей этой истории: для того, чтобы роботы наконец-то начали вкалывать вместе нас, нам нужны огромные компьютерные мощности.
Ведь как появляются и функционируют нейросети? Если совсем кратко, для того, чтобы мы могли нагенерировать себе порнухи сгенерировать себе изображение котиков, нейросеть нужно сначала обучить, а затем запустить в работу. На каждом из двух этапов её эффективность зависит от уровня доступного компьюта. По-простому: чем на большем количестве видеокарт обучалась нейросеть, тем быстрее её натренируешь, а чем больше мощностей выделено на работу — тем лучше будет результат генерации. Считаешь, что Хуанг обойдётся без новой куртки и можно обойтись обычной RTX 4080? Нейросеть либо вообще не заведётся (особенно если памяти мало), либо будет думать часами и днями над простенькой задачкой. И это просто изображение, а уж если нужно сгенерировать видео… ууу, тут всё в разы хуже Увы, таковы реалии, так что на сегодняшний день работать с нейросетями можно либо только онлайн, либо прикупив себе мощную видюху, а лучше — сразу стойку.
Точнее, так было раньше. На днях энтузиасты представили SnapGen-V — нейросетку, способную генерировать пятисекундные видеоролики. И казалось бы — ну представили и представили, мало, что ли, этих нейросеток? Да и генерирует она так себе, с лидерами рынка ни в какое сравнение не идёт:
Дело в том, что всё это происходит на мобильном телефоне, конкретно — на iPhone 16 Pro Max:
И вот такого не делал ещё никто. Нейросети-конкуренты не просто работают хуже и медленней, они просто не способны работать на таком железе.
Получить такой результат удалось благодаря изменению подхода к структуре нейросети: уменьшения шагов генерации (4 против 30), уменьшению параметров (всего 0,6B против 1,2B или даже 1,6B) и хитрой комбинации временных модулей, заточенных под смартфон.
Тут, конечно, можно придраться, ведь простенькое видео генерируется не менее 4,12 секунд. Против 0,46 секунд генерации на NVIDIA A100-SXM4-80GB GPU. Однако нужно вспомнить — менее года назад подобное видео вообще было вершиной генерации видео, а теперь его можно получить на пусть мощном, но мобильном устройстве. И это — только верхушка того, что сейчас происходит в развитии нейросетей. Вот такой вот прогресс.
P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):
Про игры и игровую индустрию: https://t.me/gameprodev;
Мой личный, куда сваливается наука и всякое гиковское: https://t.me/deeplabscience.