Почти каждый год в интернете появляется новая тема, которая будоражит умы человечества и звучит чуть ли не из каждого утюга. Сначала случился бум криптовалют, затем на повестке дня возникли роботы от Boston Dynamics, им на смену явилась технология NFT, а теперь вакантное место заняли нейросети. Про ChatGPT, Dalli-e 2 и Midjourney слышали уже все, рассказывать о них еще раз нет никакого смысла. А какие ещё возможности есть у современного искусственного интеллекта, и какие из них будут востребованы в ближайшем будущем? Вот самые интересные, а также перспективные проекты и направления.
❯ Нейрогейм-девелопмент
Существует множество сред разработки и фреймворков, способных облегчить жизнь создателям компьютерных и мобильных игр — это Unity, Unreal Engine и им подобные. Но почему бы не пойти дальше, и не попытаться генерировать отдельные уровни или сцены с помощью нейросетей?
Именно по этому пути решил пойти автор блога Madebyoll.in — в качестве исходных данных он скормил нейронке многочасовые видеозаписи игрового процесса Pokemon Let’s Play, на основе которых она самостоятельно сгенерировала нечто похожее. Таким своеобразным способом он создал некий аналог игры про покемонов, по виртуальному миру которой можно даже побродить в браузере, воспользовавшись вот этой ссылкой. Выглядит получившийся продукт довольно примитивно и топорно, но это только начало! Первые арты Dalli-e тоже, мягко говоря, смотрелись не очень.
На самом деле, автор идеи проделал довольно-таки большую работу: он изменил размер исходного видео, разметил ролики в соответствии с происходящими на них событиями, написал необученную нейросеть с 300 тысячами параметров — сам он признается, что это крошечное значение по меркам современных нейросетей — и тренировочные алгоритмы для нее. На выходе получилась демка, на самом деле не являющаяся полноценной видеоигрой, а лишь имитирующая ее. Например, алгоритм генерации сцен не умеет запоминать созданные им карты и объекты: если персонаж такой «игры» переместится на один экран, а затем вернется назад, он попадет в совершенно другую локацию (со мной такое очень часто происходит во сне). Хромает и логика: например, нейросеть может «понять» что делать, если персонаж входит в помещение, но войти в него он может не только через дверь, но и через стену. А попытавшись «войти в дерево», он тоже окажется внутри помещения.
В общем, этот проект пока еще «застревает в текстурах». Его автор назвал три проблемы, стоящие на пути полноценного создания игр на базе нейросетей: это недостаточная мощность ИИ, дефицит входной информации, позволяющей составить для нейросети полноценное и исчерпывающие описание характеристик и параметров игрового мира, и неопределенность, вызванная недостатком знаний о самих правилах игры.
Решением последних двух проблем может стать сочетание традиционной модели обучаемых нейросетей с появлением какого-то метаязыка, позволяющего составить для них описание игрового мира, задать граничные условия и построить модель, в которой указаны ключевые параметры игрового процесса и характеристики персонажа. А уже все остальное нейросеть сделает сама. Думается, это — дело не столь уж отдаленного будущего. Технология уже зародилась, и если она не остановится в своем развитии, скоро мы увидим множество интересных, захватывающих и увлекательных игр, создатели которых смогут, наконец, полностью сосредоточиться на творчестве, а не на программировании.
❯ Распознавание речи по биотокам мозга
Помните сцену из легендарного научно-фантастического фильма «Назад в будущее», где профессор Браун пытается прочитать мысли Марти? В общем, говорят, что теперь это не такая уж фантастика, хотя по-прежнему научная. В запрещенной и признанной экстремисткой на территории России компании Meta (извините, я должен был это написать в соответствии с действующим законодательством) разработали прототип технологии распознавания речи на основе неинвазивных записей активности мозга, то есть, путем снятия электроэнцефалограммы. Построена эта штука, разумеется, на основе нейросетей, кто бы сомневался.
Для удовлетворения своих научно-экстремистских амбиций в Meta собрали группу из 169 добровольцев, которых в течение более 150 часов пытали прослушиванием аудиокниг, одновременно снимая у них электроэнцефалограмму и магнитоэнцефалограмму. Затем данные МЭГ и ЭЭГ прогонялись через нейросеть, использующую модель распознавания речи wav2vec2. В результате искусственный интеллект смог успешно распознать до 73% «подуманных» испытуемыми английских слов из словаря в 793 слова, который в целом соответствует среднестатистическому словарному запасу, используемому обывателями в ежедневной разговорной речи. Подробности об этом эксперименте можно прочитать в соответствующей научной статье, опубликованной Корнеллским университетом.
Безусловно, пока еще это всего лишь научное исследование, но ключевое слово здесь — «пока». Недалёк тот день, когда мы сможем наконец надиктовывать сообщения в любимую «тележеньку» силой мысли.
❯ Мульти-пульти
О разработчиках игр мы уже поговорили, а вот аниматоры незаслуженно остались за кадром нашего внимания. Не те аниматоры в костюмах Джека Воробья, которые дышат на детишек перегаром на школьных утренниках, а те, что занимаются более взрослым и ответственным делом — мультипликацией. Если нейросети уже умеют генерировать вполне профессиональные картинки по текстовому описанию, разве они не смогут создать 24 таких картинки в секунду, сотворив мультфильм? Да могут, еще как могут! Правда, покамест с рядом существенных оговорок.
На сегодняшний день известна как минимум одна нейросеть, способная превратить современный 3D-мультфильм в довольно простенький 2D-мультик. На выходе у нее получается что-то наподобие «Южного парка», но, как говорится, лиха беда начало.
Осталось дождаться, пока на вход ИИ можно будет подавать не готовую анимацию, а, скажем, фантастический рассказ или сценарий: тогда мировая мультипликация шагнет на принципиально новый уровень. Главное, чтобы это не стало шагом в пропасть.
❯ НейроBeatховен
Нейросетью, способной генерировать музыку в заданном жанре, сейчас никого не удивишь: самой известной среди них является, безусловно Jukebox от OpenAI. А вот, например, нейронка, генерирующая аудио в реалтайме просто по нажатию кнопки. Этот ИИ знает только два стиля: «техно» и Death Metal, но его исходники доступны на гитхабе, благодаря чему любой желающий может доучить модель на своем собственном наборе данных.
А вот созданная на базе Stable Diffusion нейросеть Riffusion генерирует музыку на основе текстового описания. Вводите название стиля, группы или исполнителя, и получаете аудиопоток, весьма отдаленно напоминающий то, что вы попросили. Например, по запросу “the beatles” Riffusion родила довольно заунывный трек, голос в котором действительно чем-то отдаленно напоминает вокал Пола Маккартни. С сильного бодуна, может, и сойдет за какой-нибудь оуттейк-бутлег эпохи ранних Wings.
Но можно пойти дальше: сгенерировать стихи с помощью ChatGPT, затем создать музыку с использованием Jukebox, и исполнить получившуюся песню посредством голосового синтезатора вроде Uberduck. Нейробетховен или, если хотите, Нейровалерий Леоньтев — готов. Осталось только нарисовать при помощи нейросети анимированного 3D-персонажа в лосинах, и можно закатывать концерт в Лужниках. А что, из этой затеи вполне может получиться что-то годное: вот, например, нейросети скормили всю фонотеку «Нирваны» и она создала новую песню этой легендарной группы. Звучит, прямо скажем, впечатляюще.
***
Безусловно, современные нейросети — это пока еще «черный ящик», который порой работает непредсказуемым образом и временами выкидывает совершенно неожиданные фортели, вроде уже ставшей мемом картинки с изображением плывущего вверх по течению реки лосося. Нейронки уже сейчас отлично подходят для решения целого ряда прикладных задач, но они пока еще не могут делать абсолютно всё. Думается, наиболее оптимальный вектор их развития — объединить передовые возможности искусственного интеллекта с традиционным программированием, то есть, выбрать лучшее из имеющегося и соединить этот фундамент с новым. Таков путь.
Подпишись на наш блог, чтобы не пропустить новые интересные посты!