Microsoft тестирует функцию генеративного поиска в Bing, чтобы убедиться, что она не советует пользователям делать всякие безумные вещи, как аналогичная фича Google.
Stability AI выпустила первую video-to-video модель Stable Video 4D, способную генерировать видеоклипы на основе одного видеореференса.
Китайский ИТ-гигант Kuaishou Technology открыл доступ к потрясающей модели для генерации видео – Kling AI, которая создает HD-клипы в любом стиле продолжительностью до 2 минут. В отличие от Runway, Haiper и Luma Labs, она поддерживает объемные промпты до 2000 символов. Кажется, Sora уже можно не ждать.
Meta* выпустила фичу ImagineMe, которая может генерировать какие угодно фотографии и иллюстрации по селфи, а также способна на продвинутое редактирование изображений – добавление, удаление и замену любых предметов на фото.
Привет!
Мы запустили еженедельную email-рассылку, посвященную последним новостям и тенденциям в мире искусственного интеллекта. Наша цель – держать подписчиков в курсе самых интересных открытий, исследований и приложений ИИ.
В еженедельных письмах ты найдешь:
Новости о прорывных исследованиях в области машинного обучения и нейросетей.
Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
Статьи об этических аспектах развития технологий.
Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
Обзоры инструментов и библиотек для разработки нейронных сетей.
Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
Фильмы, сериалы и книги, которые заслуживают внимания AI-энтузиастов.
Энергичные разработчики Mistral выпустили новую версию своей опенсорсной модели – Large 2, которая превосходит другую новинку недели, Llama 3.1*, по качеству кода, решению математических задач и уровню логических рассуждений. При этом размер Large 2 (123 млрд параметров) в три раза меньше Llama 3.1*. Правда, в отличие от Llama 3.1*, Large 2 не является мультимодальной моделью, а для коммерческого использование необходимо приобретение лицензии.
Large 2 уверенно превосходит Llama 3.1 и уступает только GPT-4о и Claude 3.5 Sonnet
Meta* выпустила модель Llama 3.1*, которая, как утверждается, превосходит GPT-4о и Claude 3.5 (по нескольким бенчмаркам). Марк Цукерберг оптимистично полагает, что к концу года Llama 3.1* превзойдет по популярности ChatGPT. Стоимость обучения модели, самая большая версия которой имеет 405 млрд параметров, очевидно, обошлась компании в астрономическую сумму (несколько сотен миллионов): в процессе использовалось более 16 000 ультрадорогих GPU H100, не говоря уже о других затратах. Несмотря на огромные расходы, модель останется открытой и бесплатной: по мнению Цукерберга, опенсорсный ИИ в итоге все равно победит.
Илон Маск объявил о запуске Memphis Supercluster – крупнейшего кластера для обучения ИИ в мире – и выразил уверенность в том, что Grok 3.0, выход которого намечен на декабрь, станет самым мощным чат-ботом из всех существующих.
🤖✍️ Все самое полезное про ИИ-помощников вроде ChatGPT, Gemini, Bing и других вы найдете на нашем телеграм-канале «Библиотека нейротекста»
👁️🗨️ Бесплатный курс по компьютерному зрению
На Hugging Face запустили интерактивный курс по компьютерному зрению. Программа охватывает абсолютно все аспекты – от базовых концепций до самых продвинутых технологий на сегодняшний день – и подходит для начинающих разработчиков. Основные модули:
Основы компьютерного зрения – базовые концепции, применение и основы обработки изображений.
Сверточные нейронные сети (CNN) – изучение архитектуры CNN, предобученных моделей и методов трансферного обучения.
Vision Transformers – исследование трансформеров в контексте компьютерного зрения, сравнение с CNN и изучение популярных моделей.
Мультимодальные модели – объединение текста и изображений, изучение моделей типа CLIP и их применение.
Генеративные модели – обзор GANs, VAEs и диффузионных моделей, их применение в различных задачах генерации изображений.
Базовые задачи компьютерного зрения – классификация изображений, обнаружение объектов и сегментация. Популярные модели и метрики.
Обработка видео – особенности работы с видео, оценка движения и практические применения.
3D-зрение, рендеринг и реконструкция сцен – изучение трехмерного зрения, концепций Nerf и GQN.
Оптимизация моделей – техники сжатия, особенности развертывания и использование инструментов для эффективной работы.
Создание синтетических данных – использование генеративных моделей для создания синтетических данных и их применение.
Компьютерное зрение с нулевым обучением – изучение обобщения и трансферного обучения в задачах компьютерного зрения.
Этика и предвзятость в компьютерном зрении – рассмотрение этических аспектов, типов предвзятости и стратегий их смягчения.
Перспективы и новые тенденции – обзор современных трендов и инновационных архитектур в области компьютерного зрения.
🗣️ 4 проверенных способа повысить качество ответов чат-бота
Если в ответ на свои запросы вы получаете посредственные и поверхностные тексты, возможно, дело не в способностях чат-бота, а в содержании ваших промптов. Релевантность, глубину, экспертность и детальность ответов действительно можно повысить. Приведенные ниже способы уже доказали свою эффективность при работе с ChatGPT. Они также подойдут для похожих LLM – Claude, Gemini и т. д.
Назначайте чат-боту определенные роли
Если стандартное поведение ИИ-ассистента не дает желаемого результата или нужен специфический контекст общения – поручите чат-боту играть конкретную роль. Начните промпт со слов: «Действуй, как...», «Отвечай, как» или «Представь, что ты...» Этот подход позволяет создать более реалистичный и целенаправленный диалог, помогает получить специфические знания или опыт. Чем больше деталей о роли и ожидаемом поведении предоставлено, тем точнее будет ответ ассистента. Эта техника особенно полезна для практики навыков, подготовки к определенным ситуациям или получения специализированной информации в контексте конкретной роли. Например:
Симуляция собеседования при приеме на работу.
Языковая практика с ИИ в роли репетитора.
Анализ фильма с ИИ в роли кинокритика.
Можно назначать самые разные роли – от профессиональных (врач, программист, юрист) до творческих (комик, писатель).
Добавляйте персональные детали и характеристики
Для получения более естественных и персонализированных текстов в промптах нужно:
Задавать формат (письмо, пост для блога, статья).
Указывать необходимый стиль (например – интригующий, деловой, вдохновляющий, остроумный, саркастичный и т. п.).
Использовать нужные прилагательные для конкретных элементов текста («забавные факты», «курьезные истории», «вдохновляющее вступление», «мотивирующее заключение» и т. п.).
Определять уровень экспертизы («Напиши [формат] на [тему] в стиле эксперта в [области] с 10+ годами опыта»).
Применяйте двухэтапный подход для текстов со списками и подборками
Если в тексте используются какие-то списки, для улучшения качества нужно сначала сгенерировать нужные пункты, а в последующем промпте поручить чат-боту написать текст в необходимом стиле/тоне с использованием этого списка. Например:
Промпт 1: «Напиши 5 рациональных доводов в пользу того, что ИИ не заменит людей в [области]».
Промпт 2: «[Довод 1, 2…5] Используя перечисленные доводы, напиши аналитический пост в стиле журнала Forbes, который остроумно объясняет, почему ИИ не заменит людей в [области]».
Эта техника позволяет добиться более «человечного» и экспертного звучания текста.
Создавайте кастомные инструкции
Чтобы не повторять контекст и детали в промптах на одну и ту же тему, можно создать постоянные кастомные инструкции, которые будут применяться ко всем промптам автоматически. Такие инструкции экономят время и повышают релевантность и экспертность ответов. Пример инструкции, которая будет применяться к коду для визуализации данных:
При написании кода для визуализации результатов помни:
Используй Seaborn вместо Matplotlib.
Всегда используй темную тему или фон [например, sns.set(style="darkgrid")plt.style.use("dark_background")].
Для столбчатых диаграмм всегда упорядочивай данные от высокого столбца к низкому.
При выборе цветовых палитр помни:
"Blues_r" – используй для последовательного анализа и сравнения (не используй "Blues_d").
"Bright" – используй только для качественного анализа.
✍️ Бесплатные ресурсы по промпт-инжинирингу
Краткий курс для разработчиков подходит для начинающих программистов (достаточного базового знания Python). Программа охватывает:
Принципы работы больших языковых моделей.
Лучшие практики промпт-инжиниринга.
Применение API языковых моделей в приложениях (для анализа настроений и извлечения тем, перевода текста и исправления орфографии и грамматики, автоматической генерации имейлов).
Краткое руководство OpenAI по лучшим практикам промпт-инжиниринга содержит исчерпывающую подборку рекомендаций. Основные советы:
Быть конкретным, описательным и детальным в отношении контекста, желаемого результата, длины, формата, стиля и т. д.
Формулировать желаемый формат вывода через примеры.
Начинать с промптов с нулевым (zero-shot) и малым (few-shot) количеством примеров и переходить к файнтюнингу, если этого окажется недостаточно.
Правильно использовать параметры – особенно тип модели и температуру.
Learn Prompting – огромная база знаний, которая будет одинаково полезна и для начинающих пользователей, и для продвинутых разработчиков. Все гайды здесь тщательно рассортированы по категориям и по уровню сложности. Есть разделы на любой вкус – от генерации изображений в Midjourney до многочисленных способов взлома или эксплойта LLM.
Руководство по промпт-инжинирингу – почти такая же объемная база, как и Learn Prompting, с большим дополнительным преимуществом: все материалы переведены на русский язык. Особое внимание уделяется продвинутым техникам и фреймворкам, которые подходят для решения сложных задач.
Сравнение эффективности разных техник на примере игры «Двадцать четыре». Самый лучший результат показал фреймворк ToT (дерево мыслей)
🤖🔊 Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки вы найдете на нашем телеграм-канале «Библиотека нейрозвука»
🛠️ Инструменты
Invue AI – ИИ-симулятор для подготовки к прохождению собеседования на конкретную вакансию.
Mermaid AI – рисует блок-схемы и диаграммы по описанию.
Nolan – пишет сценарии для фильмов.
Tempest AI – напишет игру за 10 минут.
Gendo – ИИ для архитектурного дизайна.
DOM to Semantic Markdown – преобразует веб-контент в семантический Markdown-формат с сохранением структуры и метаданных. Такие данные легче «перевариваются» моделями, улучшая их возможности обработки и рассуждения.
Auphonic – ИИ-звукоинженер для улучшения качества любых аудиозаписей.
UltraPixel – генерирует изображения в Ultra HD (до 4096×4096).
Протестировать модель можно на Replicate
🤖🎥 Все самое полезное про нейросети для генерации видео и дипфейки вы найдете на нашем телеграм-канале «Библиотека нейровидео»
Rodin – впечатляющий генератор 3D-моделей.
MyMathSolver – бесплатный ИИ-решатель сложных математических задач. Работает на базе GPT-4o, поэтому распознает скриншоты.
Study Map – генератор персонализированных курсов и учебных планов для изучения чего угодно.
* Деятельность Meta и все ее продукты, включая Llama 3.1, признаны экстремистскими и запрещены на территории РФ.
Автор рассылки: Наталья Кайда