В мире генераторов изображений ИИ выделяются две нейросети: Midjourney и Stable Diffusion. Midjourney может генерировать изображения с исключительным качеством, но его невозможно запустить на вашем компьютере. Stable Diffusion известен тем, что имеет открытый исходный код, но качество генерации у базовой модели все еще далеко от Midjourney.
Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.
Теперь появилась Distillery - модель ИИ, которая сочетает в себе уровень контроля Stable diffusion с простотой использования и качеством, близким к Midjourney.
Что такое Distillery?
Distillery - это сервис генерации с открытым исходным кодом, созданный компанией FollowFox, которая является венчурной студией, специализирующейся на создании небольших моделей искусственного интеллекта. По словам представителей компании, они обязуются раскрывать все свои бэкенды и модели сообществу.
Distillery с открытым исходным кодом
FollowFox выпустила свою новейшую модель Cosmopolitan, основанную на Stable Diffusion 1.5 (SD 1.5). Эта мощная модель доказала свою высокую эффективность в общих случаях использования, и теперь Distillery доступна бесплатно в Discord.
В соответствии с философией открытого исходного кода, компания предоставляет открытый доступ к своим методам обучения и кодам.
Процесс разработки включал в себя несколько этапов: выбор и создание набора данных, тонкая настройка модели и смешивание различных версий модели для достижения желаемого результата. Команда явно приложила много усилий, чтобы выпустить Distillery.
Вы можете ознакомиться с моделью с открытым исходным кодом в CivitAI, чтобы запустить ее на своем компьютере.
Если вам интересно узнать, как работает бэк-энд Distillery, прочитайте эту статью.
Вот как вы можете ее попробовать
Есть два способа попробовать модель Cosmopolitan:
В этом примере я расскажу вам о процессе генерации изображений в Discord. Перейдите на канал free-generations.
Нажмите клавишу "/", и вы увидите несколько вариантов:
/command-infos - информация о командах Distillery
/serve - создать четыре увеличенных изображения с использованием платных моделей
/serve-free - создать четыре увеличенных изображения с использованием бесплатных моделей
/suggest - создать сложный промпт из простого текста, используя LLM Distillery
/upscale - увеличить изображение с помощью платной модели
/upscale-free - увеличить изображение с помощью бесплатной модели
/zoomout - уменьшить масштаб изображения
Промпт: an image of an astronaut riding a horse on the moon
Генерация изображений заняла около минуты. Что вы думаете о результатах? Я думаю, что они выглядят очень хорошо; уровень детализации исключительный.
Они потрясающе детализированы и не уступают Midjourney.
LoRA
LoRA, или Low Rank Adaptation, - это дополнительный и простой способ добавить предварительно обученный стиль к генерируемым изображениям.
Существуют десятки курируемых LoRA, которые интегрированы в модели Distillery по умолчанию. Для достижения наилучших результатов важно использовать LoRA с соответствующими словами активации в промпте.
Промпт: /serve-free an astronaut riding a bike on Mars — lora realism — image
Промпт: /serve-free a photo of Jennifer Lawrence having sitting in a Parisian coffee shop, analog style — lora analog — cfg 5 — seed 2000 — neg deformed, low quality — ar 16:9
В настоящее время пользователям доступно 90+ различных стилей. Пользователи могут объединить до пяти различных LoRA в одном промпте, что может привести к неожиданным творениям. Мне нравится возможность сочетать столько стилей и влияний в одном изображении.
Полный список поддерживаемых LoRA смотрите здесь.
Слияние стилей
Уникальной особенностью Distillery является возможность слияния стилей и использования изображений в качестве основы для генерации. Ниже показано, как объединить изображение воина с фоном пляжа Ипанема, используя функции управления и адаптации Distillery.
Вот еще один пример практического использования Distillery. Конечный результат, который предполагается получить, представляет собой смесь реализма и волшебства, символизируя открытые двери для безграничных творческих возможностей. Для получения результата в качестве базового используется изображение "открытого окна", а второе изображение - для стилистической обработки.
Изучение всех функций, моделей, стилей и вариантов их использования в Distillery займет некоторое время, но как только вы освоите их, это станет невероятно интересным занятием, потому что вы сможете использовать все вместе и начать смешивать стили и изображения, чтобы сделать новые открытия.
Цены
Distillery - это freemium-продукт на Discord с тремя тарифными планами:
Free - дает вам 10 бесплатных генераций в день. При каждом бесплатном запросе вы получаете четыре изображения высокого разрешения (1024x1024 пикселей).
Early User - стоимость 9,99 доллара в месяц. Вы получаете 300 премиум-генераций в месяц без ограничения по количеству ежедневных генераций. При каждом запросе вы получаете 4 изображения (в отличие от 2, предоставляемых в бесплатном варианте).
Founders' Pass - за 24,99 доллара вы получаете 1 000 премиум-запросов в месяц (в 3,33 раза больше, чем у Early User). Участники Founders' Pass получат пожизненный доступ ко всем будущим публичным уровням и другим предложениям.
Обратите внимание, что это все еще альфа-версия модели и в будущем она может быть улучшена.
Мы должны подчеркнуть, что это все еще наша MVP. У нас огромные планы на Distillery на ближайшее будущее, и мы с нетерпением ждем возможности рассказать о них в ближайших постах.
В целом, Distillery - это замечательная модель изображений с открытым исходным кодом, которая конкурирует с Midjourney по качеству и при этом обеспечивает максимальный контроль над процессом генерации. Открытый исходный код модели изображения также делает ее привлекательной для тех, кто хочет интегрировать ее в свои собственные продукты.
Distillery все еще находится в разработке, поэтому в следующих итерациях, скорее всего, будут внесены улучшения. Мы будем внимательно следить за развитием этого продукта в ближайшие месяцы!
Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.