Искусственный интеллект
6 постов
6 постов
3 поста
Все самые важные и интересные финансовые новости в России и мире за неделю: Дуров готов сливать ваши данные органам, 26 льготных ипотек на человека, бескупонная облигация Сбера для гуманитариев, законы о пропаганде чайлдфри и оскорблении чиновников, взлет китайских акций, а также захват онлайн-покеррумов нёрдами из Омска.
🐹 Токен Hamster Kombat наконец залистился на криптобиржах по 1 центу, и немедленно упал на треть до 0,65 цента. Как посчитал Саша Ильин, средний хомякотапатель сказочно обогатился получил всего примерно 4 (четыре) бакса на брата. В принципе, вместо многодневных тапаний экрана проще было отстоять пару часов за кассой во «Вкусно и точке»…
Из тех инфлюенсеров, за кем я слежу, Александра Вальд смогла похвастаться рекордным заработком аж в $100 (и это при том, что она последние несколько месяцев чуть ли не ежедневно учила 17 тысяч подписанных на нее воннаби-криптанов правильно тапать хомяка).
🪒 В цифрах распределение токенов среди хомяков выглядит так: из 300 млн игроков больше половины признали заведомо недостойными никаких токенов; и еще 2,3 млн цинично забанили за читерство. На Смартлабе есть смешная статья чувака, который «проинвестировал» 492’000 рублей в зарплату сотне наемных школьников-тапальщиков – чтобы в итоге получить ачивку «читер» и остаться без токенов. В тексте он там клеймит разработчиков Hamster Kombat за то, что «жадность охватила их разум» – братан, я не хочу ни на что намекать, но ты же понимаешь, что это звучит несколько иронично?..
🐌 Павел Дуров после месяца общения с французскими жандармами (надеюсь, обошлось без оперативно-розыскных мероприятий с применением игристого вина из региона Шампань) сообщил о своей новой личной цели: побороть всю нелегальщину в Телеграме. Отныне айпи-адреса и телефоны «нарушителей» будут эффективно сливаться всем государствам мира в ответ на «валидные юридические запросы». Россияне и белорусы be like: «спасибо, Макрон, вообще по красоте сделал, сейчас заживем наконец!!».
Еще, кстати, Дуров на допросе раскрыл размер своих доходов: 1 дирхам в год. На 50% этой суммы продолжает претендовать Ирина Болгар, которая каждую неделю дозированно спамит новыми «семейными фоточками» из архива.
Отчего-то интерьер жилплощади там не очень вяжется с волчьими цитатами Павла про аскетизм и презрение к роскоши 🤔
🐌 Счетная палата РФ насчитала 115 тыс. заемщиков, которые оформили на себя по две и больше льготных ипотеки (в совокупности на триллион рублей). Один челик смог набрать аж 26 кредитов со льготной ставкой. Получился анекдот про нюанс: вроде бы, речь идет про один и тот же процесс, но один чувствует «эффективные инвестиции в недвижимость с дешевым плечом», а другой – «финансирование хитрожопия из денег налогоплательщиков». А ты, читатель, с какой стороны этого анекдота находишься?
🐌 Bloomberg раскопал секретный (пока) проект бюджета РФ на 2025 год – и там выходит, что военные расходы вырастут примерно на 27% по сравнению с предыдущим озвученным планом. Видимо, где-то там сурок вылез из норы и сказал правительству «парни, сорри – вижу тень, еще минимум год зимы!». Всего расходы на оборону и безопасность достигнут около 40% федерального бюджета.
Бобр-курва, ты не в ту сторону предсказываешь!
🐌 Правительственная комиссия одобрила законодательные поправки, согласно которым планируется ввести административные штрафы (до 50 тыс. руб. для физлиц и до 1 млн руб. для юрлиц) за участие в незаконном привлечении инвестиций от физлиц – это если делать это без лицензии от ЦБ, или предлагать неограниченному кругу лиц те штуки, которые полагается трогать только квалинвесторам. Финансовые блогеры, привыкшие продавать «джинсу» всем подряд, на этом месте должны напрячься.
Жиза? Было?
🐌 Российские управляющие компании давно просят ЦБ организовать им возможность открывать своим клиентам зарубежные счета и трейдить «за бугром». Пишут, что Центробанк на это говорит «без проблем, только закройте целиком собственным капиталом риски санкционных блокировок активов клиентов». На это УК отвечают «да ладно, чё уж вы так сразу, не очень-то и хотелось нам на эти ваши зарубежные рынки…».
🐌 А еще, помните в марте 2022-го ЦБ ввел временные ограничения на вывод валюты за рубеж? Так вот, их на прошлой неделе опять продлили еще на полгода (уже в четвертый раз, получается).
🐌 Сбербанк выпускает бескупонную облигацию на 5 лет с дисконтом 50%. Обещают надежный заработок в размере «20% годовых». Прошу срочную помощь гуманитариев – в чем подвох??
🐌 Тем временем, рублевые гособлигации с защитой от инфляции ОФЗ-ИН позволяют зафиксировать на 6 лет реальную доходность в размере почти 10% годовых (сверх инфляции). Прикиньте, если бы можно было провернуть аналогичный трюк в американских TIPS и гарантировать себе 10% в долларах поверх инфляции? Не буду скрывать – я б туда вдул на всю котлету... 🤔
🐌 Мосбиржа с 27 сентября начала считать новый индекс фондов недвижимости с тикером MREF – если честно, звучит скорее как подходящая кликуха для кота Германа Грефа, ну да ладно.
Ладно, я вас обманул, кота Грефа на самом деле зовут «СберКот»
Блок новостей из рубрики «адовые предложения депутатов, про часть из которых в итоге забудут, но что-то из этого превратится в настоящие законы»:
Законопроект о запрете пропаганды чайлдфри: пишешь в интернете, что не хотеть заводить детей это норм – получай штраф 400 тыс. рублей!
Законопроект о публичном оскорблении представителей власти: написал в интернете всё, что ты думаешь о чиновнике, – присаживайся в тюрьму на пару лет!
В принципе, в каком-то смысле этот скриншот попадает в сферу действия сразу двух заявленных законопроектов...
Еще был слух про идею запретить россиянам иметь второе гражданство – но тут, к счастью, уже заявили официальное опровержение.
🐌 Пишут, что велика вероятность скорой блокировки Роскомнадзором мессенджера для группового общения геймеров и криптанов под названием Discord.
🐌 Чуваки провели мини-исследование и выяснили, что за последний год Apple выпилила из российского Аппстора почти сотню VPN-приложений. И это еще Тима Кука во французскую тюрьму не сажали!!
🐌 Китайский Центробанк решил, что хватит это всё терпеть – и анонсировал мега-пакет гига-мер по поддержке экономики. Денег обещают выдать всем, вообще всем! ETF MCHI на китайские акции на радостях вырос на 20% за неделю.
🐌 OpenAI последние пару лет привлекает деньги инвесторов миллиардами баксов – но при этом как будто бы остается «некоммерческой» организацией (в питчах для инвесторов присутствовали трогательные фразы типа «лучше считайте свой взнос… э-э-э… пожертвованием!»). Так вот, похоже, правдоподобно ломать эту комедию уже дальше невозможно: пишут, что компанию уже вот-вот преобразуют в стандартный коммерческий стартап. Якобы, в условиях крайнего раунда привлечения финансирования была оговорка по типу «бабки придется вернуть, если в течение двух лет OpenAI не реорганизуется».
Попутно в прессе появилась информация, что обсуждается присуждение Сэму «У меня нет финансовых интересов в OpenAI» Альтману 7% доли в компании (это, на минуточку, 10 ярдов долларов). Сам Сэм оперативно созвал трудовой коллектив на зум-колл и там сказал, что это совершенно точно неправда. Ну и заодно еще новость: Мира Мурати, бывшая техдиректорка OpenAI, уходит из компании.
Как говорится: «товарищ Альтман, произошла чудовищная ошибка!»
🐌 А вот Джеймс Кэмерон, наоборот, присоединился к совету директоров Stability AI (это те, которые генерируют картинки в Stable Diffusion). Думаю, старина Джеймс просто планирует как только начнется восстание ИИ – достать из кармана камеру и снять приквел «Терминатора», как говорится, сразу из первых рядов…
🐌 Завершился суд над Кэролайн Эллисон – боевой подругой Сэма Бэнкмана-Фрида. Многие думали, что она вообще не сядет, но в итоге ей назначили 2 года тюрьмы. Так мы узнали, что стратегия «сдать бывшего с потрохами» ведет к сокращению срока заключения на 92% по сравнению со стратегией «защита Чубакки» (см. SBF, который сел на 25 лет).
🐌 The Russian Bot Army That Conquered Online Poker. Статья в Bloomberg про тайную корпорацию королей покерного AI из Омска с цитатами из Макса Каца – как говорится, what’s not to like?
🐌 Полина Лосева рассказывает о том, почему ученые никак не могут договориться между собой – в чем конкретно заключается причина эпидемии ожирения, от которой страдают многие развитые страны?
🐌 В этой рубрике я рассказываю об одном подкасте, который я послушал на прошлой неделе: нынче это Илон Маск в подкасте Лекса Фридмана (опять). На этот раз с другими ребятами из Neuralink. Подкаст длится почти 9 часов! Юрий Дудь в исступлении грызет провод микрофона от зависти…
Как обычно, более подробно о том, что мне показалось интересным в этом подкасте, я рассказываю в видеоверсии этого дайджеста вот здесь.
🐌 Чанпэн Чжао (владелец криптобиржи Binance) откинулся из американской тюрьмы после четырехмесячной отсидки. А это значит, что он еще успевает поучаствовать в нашем розыгрыше айфона 15 Pro, который заканчивается через неделю!
Но я всё же надеюсь, что выиграет не Чанпэн, а конкретно ты, дорогой читатель. =)
Выложил продолжение истории с моим публичным обращением к Андрею Мовчану по поводу его фонда GEIST.
Рассказал, почему инвестиционные профессионалы поржут над вашими попытками померяться доходностями портфелей, посчитанными через IRR.
Пост про то, как положительная заявленная доходность фонда ARKK Кэти Вуд может сочетаться с тем фактом, что по итогу они сожгли 7 млрд инвесторских денег.
Месяц назад я публично озвучил несколько вопросов в адрес Андрея Мовчана и Елены Чирковой, которые касались их фонда акций GEIST. За этим последовала продолжительная (уже непубличная) переписка с отделом маркетинга Movchan's – публикую ее результаты.
[Фото: Семен Кац/Inc.]
В конце августа я написал небольшую заметку с публичными вопросами в адрес представителей инвестиционной компании Movchan's. Они касались размещенной на сайте Movchan's информации об исторических результатах фонда акций GEIST. На мой взгляд, потенциальные инвесторы и посетители сайта могли быть введены в заблуждение в отношении двух вещей:
Результаты GEIST были показаны не с момента запуска фонда, а с 01.01.2022 – то есть ровно с той точки, когда фонд начал обгонять бенчмарк-индекс S&P500 (после долгого периода отставания от него). При этом, какого-либо обоснования для выбора такой точки отсчета приведено не было.
Соседство фраз «4 года истории» и «Волатильность сильно ниже, чем у S&P500, при сравнимой доходности» могло создать у инвесторов ложное впечатление, что фонд GEIST продемонстрировал сходную с индексом доходность на протяжении всей своей жизни (тогда как по факту фонд показал отставание примерно на 13% годовых).
Наше первоначальное общение как-то не задалось (как вы помните по прошлой заметке), но через несколько дней после выхода материала со мной связалась глава отдела маркетинга Movchan's и постаралась дать ответы на возникшие у меня вопросы. По итогу этого диалога команда Movchan's провела ряд внутренних обсуждений и страница фонда GEIST на сайте компании была откорректирована.
Во-первых, точка отсчета для демонстрации результатов фонда была исправлена с 01.01.2022 на 01.07.2023, а под график было добавлено пояснение:
Фонд GEIST был запущен в июле 2020 г. В 2022 г. было принято решение о смене стратегии и началась работа по преобразованию фонда в фонд фондов акций (инвестирует в фонды третьих лиц). К июлю 2023 г. доля инвестиций в фонды третьих лиц стала существенной (более четверти чистых активов), и мы считаем 1 июля 2023 г. датой смены стратегии.
На мой взгляд, такое представление является корректным. Точка отсчета 01.07.2023 не выбрана произвольно, она действительно соответствует публичной информации о дате смены стратегии фонда GEIST. Ранее управляющие фондом осуществляли активное инвестирование самостоятельно, а с середины 2023 года GEIST превратился по большей части в фонд инвестиций в другие фонды. Получается, наиболее релевантный период исторических данных для оценки результатов текущей стратегии потенциальными инвесторами и правда начинается где-то с июля 2023-го.
Мне кажется, еще более красивым решением было бы показать на сайте полную историю результатов фонда, и при этом разбить ее на две части (до / после смены стратегии). Но текущее представление тоже нельзя назвать некорректным (особенно с учетом того, что тем, кто соберется вкладывать деньги в GEIST, всё равно обязаны раскрыть всю историю целиком).
Во-вторых, из шапки сайта убрали часть фразы про «сравнимую с S&P500 доходность». В текущих формулировках больше не вижу никаких несоответствий действительности:
Отдельное спасибо за то, что дефис поправили на тире =)
До этого всё обсуждение крутилось вокруг фонда GEIST, но у Movchan's еще есть Absolute Return-фонд ARGO. У этого фонда с 2021 года произошла аналогичная корректировка стратегии: он перешел от чисто «самостоятельных» инвестиций к вложениям в чужие хедж-фонды.
Однако, подход к представлению смены стратегии здесь выбран другой: под графиком так же добавлена сноска об этом событии, но при этом результаты ARGO показаны с самого возникновения фонда в 2016 году.
Для меня это выглядит примерно как «фонд ARGO опережал бенчмарк с самого начала, поэтому для него будем показывать полную историю; а фонд GEIST за первые два года катастрофически отстал от бенчмарка – поэтому для него возьмем за точку отсчета момент изменения стратегии».
При этом, как я пишу выше, подход к демонстрации результатов ARGO (без отрезания «лишних» кусков истории) мне нравится даже больше, но в целом оба варианта выглядят по отдельности окей. Вопросы вызывает только непоследовательное применение разных подходов в схожих случаях – как будто бы, выбор того или иного варианта обусловлен в первую очередь логикой «правильнее выбрать такой, где сравнение с индексом выглядит покрасивее».
Представители Movchan's прокомментировали свое решение так: «Мы не считаем смену стратегии ARGO настолько принципиальной, девиации в долговых рынках существенно меньше, да и доля фондов в ARGO не выходит за 50%».
Мне кажется, это несколько противоречит озвученному выше подходу для фонда GEIST, где существенным изменением стратегии было признано превышение доли внешних фондов в портфеле порога в 25%. Ну да ладно – в целом, этот момент не такой уж супер-критичный.
Я рад, что по итогу Movchan's отреагировали на мои вопросы наиболее достойным образом: детально разобрались в ситуации и внесли корректировки в свои маркетинговые материалы там, где это было необходимо сделать.
Идея вкладываться в их фонд GEIST, если вы хотите получить экспозицию на рынок акций, мне по-прежнему не кажется удачной (с момента смены стратегии он опять показывает доходность почти в два раза меньше S&P500) – но, по крайней мере, информация о фонде раскрыта на сайте корректно.
Заодно мы еще договорились записать для моего канала «живое» интервью с Андреем Мовчаном в ноябре, когда он в следующий раз окажется на Кипре. Так что, если у вас есть идеи для интересных / острых вопросов в его адрес – смело пишите их в комментариях, постараюсь учесть при подготовке к разговору!
Все самые важные и интересные финансовые новости в России и мире за неделю: мать детей Дурова претендует на 50% Телеграма, Финам дал доступ к внебиржевым торгам долларом, ЦБ хочет загнать пенсионные накопления в IPO, Федрезерв США начал снижать ставку, IB готовится дать возможность делать ставки на выборы, а Mr. Beast выпустил топовый гайд по профессии ютубера.
🐌 Как вы помните, между супругами Бакальчук тлеет корпоративно-семейный конфликт по разделу компании Wildberries. Ну так вот, в список эпитетов теперь можно смело добавлять еще и «криминальный»: в минувшую среду там прямо в офисе прошли стихийные прения сторон в формате «стенка на стенку», двух человек застрелили (подробнее читайте у The Edinorog здесь и здесь, плюс обязательный к прослушиванию саундтрек).
Следователи, кажется, склонны винить во всём сторону Бакальчука-мужа; а аналитики Forbes, тем временем, уже уменьшили оценку состояния Бакальчук-жены вдвое.
🐌 Ну и сразу про семейные конфликты: Ирина Болгар, неофициальная экс-жена Павла Дурова и мать его детей, заявила, что ей должна принадлежать ровно половина совместно нажитого Телеграма. Надеюсь, эти в итоге смогут порешать вопросики чуть более цивилизованно, чем Бакальчуки…
Также Болгар выложила «семейное фото» с братьями Дуровыми из архива. Оба Дурова здесь выглядят примерно как подростки-неформалы, которых мамка заставляет фоткаться
🐌 Израильские спецслужбы сначала через подставные компании продали ливанской «Хезболле» сверхзащищенные пейджеры и рации, а потом оказалось, что там внутри к батареям прицеплена взрывчатка – которую и взорвали удаленно 17–18 сентября. Пишут, что в общей сложности пострадало более 3000 человек.
🐌 Вышло журналистское расследование о том, что «оппозиционный олигарх» Невзлин слегка поехал кукухой и начал заказывать нападения на других оппозиционеров, кто ему нахамил в Твиттере. По ходу обсуждения этого всего заодно выяснилось, что он же финансирует изрядное число видных оппозиционных деятелей в эмиграции. Масштаб щитсторма в Твиттере можете представить сами.
🐌 С переходом российской экономики на «дружественную валюту» как-то не складывается: компании, которые навыпускали облигаций в юанях, сейчас жалуются, что достать валюту внутри России в нужных количествах для погашения обязательств нереально – так что, по ходу, придется делать выплаты в рублях.
🐌 Финам запустил для своих клиентов доступ на внебиржевые торги долларом. Выглядит прикольно: осталось всем остальным брокерам сделать то же самое – и, можно сказать, что в России будут успешно функционировать почти-что-биржевые внебиржевые торги валютой.
🐌 ЦБ внезапно решил вводить налоговые льготы для НПФ за активное участие в IPO – видимо, чтобы проще было выполнять наказ президента по кратному росту капитализации рынка акций. Чуть раньше еще пенсионным фондам разрешили покупать акции мелких компаний третьего эшелона. Короче, одной рукой государство толкает НПФ в максимально консервативные и низкодоходные инструменты (см. «обязательство возмещать убыток по портфелю клиента»), другой – в максимально агрессивно-лудоманские. Л – логика!
🐌 Тем временем, обычные розничные инвесторы в IPO опасаются, что с 2024 года с них начнут взымать налог с «фантомной материальной выгоды» из-за кривовато написанной законодательной базы по этому поводу. ЦБ пока думает, что на это ответить.
🐌 Пишут, что после отмены льготной ипотеки на новостройки банки активно пушат продукт «заплати единоразово за снижение ставки по ипотеке на пару процентов». Уверен, что в ход там идут квази-финансовые аргументы вроде «да ведь таким образом у вас ПЕРЕПЛАТА МЕНЬШЕ будет!».
На мой взгляд, платить на локальном пике ставок из своего кармана за небольшое понижение ставки по длинному кредиту – это какая-то шляпа. Ведь велика вероятность, что на горизонте ближайших нескольких лет ставка и так упадет, и кредит можно будет рефинансировать «бесплатно».
🐌 Федрезерв США наконец начал снижать ставку, и сразу на 50 б.п. – теперь ставка короткой безрисковой долларовой доходности составляет примерно 4,9% годовых. Ожидается, что до конца текущего года успеют впихнуть еще пару раундов снижения по 25 б.п. Инвесторы приободрились, S&P500 поставил очередной рекорд!
🐌 В Америке суды пытаются разобраться – можно ли разрешить делать ставки на исход президентских выборов? Interactive Brokers уже заявили, что как только – так они первые разрешат своим клиентам гэмблить в этом направлении.
🐌 У компании 23andMe, популяризовавшей массовое генетическое тестирование, дела идут не очень хорошо: со времен выхода на биржу в 2021 году акции упали на 97%. Выяснилось, что после того, как всё население по разу плюнуло в пробирку, – зарабатывать деньги больше особо не на чем…
🐌 Прикольный лонгрид про чувака, который профессионально прикидывается инвестором-лохом в США, чтобы сдавать лохотроны SEC и получать за это в свой карман 10–30% от назначенных штрафов (чистыми выходят десятки миллионов долларов). Жалко, у нас такого нет, иначе Агрессивный Инвестор мог бы неплохо озолотиться!
🐌 Исследователи проанализировали статистику по 13 американским штатам, где несколько лет назад запретили запрещать делиться информацией о своей зарплате с коллегами: выяснилось, что хоть неравенство з/п в итоге и снизилось, но в основном за счет того, что самым способным перестали предлагать высокие зарплаты (чтобы остальным завидно не было). Средняя з/п в итоге снизилась примерно на 2%.
🐌 В сеть слили гайд Мистера Биста (самого популярного ютубера в мире) под названием HOW TO SUCCEED IN MRBEAST PRODUCTION, и я всецело рекомендую его к прочтению – там много интересного и про сам ютуб, и про то, как относиться к работе с одержимостью.
Подскажите, кто из этих троих настоящий Mr. Beast? Сорри, я ни одного видоса на самом деле не смотрел...
Хакеры своровали $52 млн с сингапурской криптобиржи BingX. Сама биржа обещает пострадавшим клиентам «всем всё вернуть».
В этой рубрике я рассказываю об одном подкасте, который я послушал на прошлой неделе: в этот раз это Jason Buck at Excess Returns – Challenging the Idea of Stocks for the Long Run.
Как обычно, более подробно о том, что мне показалось интересным в этом подкасте, я рассказываю в видеоверсии этого дайджеста вот здесь.
Девайсу Blindsight от Neuralink Илона Маска американская FDA присвоила статус «прорывного устройства». По ходу, не за горами тесты на людях – помимо обретения обычного зрения обещают еще инфракрасное, ультрафиолетовое и радиочастотное.
Игорь Котенков рассказывает, почему новая модель OpenAI o1 – это не хайп, а переход к новой парадигме в ИИ.
Делюсь своим списком зарубежных брокеров для российских граждан, которые живут не в РФ.
Разбираемся, есть ли смысл инвестировать в какие-либо рынки акций кроме США?
В продолжение вот этого поста давайте еще раз обсудим позицию «да я тут посмотрел графики за последние 15 лет – рынок акций США всех уделывает без шансов, американская экономика СТРОНГ, нет вообще никакого смысла куда-либо еще вкладываться, кроме S&P500…».
Я такой тезис слышал уже множество раз, и у меня в этот момент всегда возникает ощущение, что собеседник как будто бы немного недооценивает – насколько рынок одной конкретной страны более рискованный, чем совокупный рынок акций всего мира. На это у фанатов S&P500 обычно принято отвечать «да Штаты и так занимают больше половины капитализации мирового рынка акций, ну и там международных компаний полно – можно считать, что это плюс-минус и есть мировой рынок!»
Предлагаю ненадолго перенестись в 1989 год. К этому времени в мире определился бесспорный экономический лидер с самой динамичной и высокотехнологичной экономикой, компании из которой успешно захватывали все международные рынки современных товаров. Фондовый рынок этого лидера последние 20 лет приносил доходность примерно 22% годовых – в разы больше всего остального мира, так что его доля в капитализации мирового рынка акций была крупнейшей, более 40%. В общем, не было никаких сомнений, что разумному инвестору следует вкладывать все свои деньги именно в акции... да нет, не Америки, конечно же – вы что, речь идет про Японию!
Правда, как только 80-е закончились, вся эта магия японского экономического чуда внезапно подрассеялась, и за следующие 15 лет японский рынок акций упал примерно в три раза – его восстановление в итоге займет более 30 лет. За 32 года с 1990-го по конец 2021-го японский индекс TOPIX принес своим инвесторам долларовую доходность всего 0,6% годовых – и это еще без учета инфляции… В общем, в данном случае у нашего «инвестора в безусловно лидирующую страну» результаты вышли бы крайне печальные.
Ну, эту поучительную историю про Великий Японский Пузырь вы наверняка уже слышали раньше. Я тут, на самом деле, хотел обратить внимание на другой момент: как вы помните, в начале этого катастрофического для Японии периода страна являлась крупнейшей в структуре мирового рынка акций: ее доля была больше, чем у Штатов, и уже потихоньку приближалась к половине.
Можно было бы ожидать, что такие отвратительные результаты самой массивной страны должны были размотать по кочкам и портфель «инвестора в общемировой рынок». Но нет: на этих же 32-х годах рынок акций всего мира показывает вполне годную доходность в размере 7,9% годовых.
Вот примерно поэтому идея инвестировать «в весь мир» и кажется мне более разумной, чем попытки выбрать «самый более лучший рынок», смотря в зеркало заднего вида. Даже если ошибешься – вероятность получить катастрофический результат всё же получается сильно ниже, ведь такой общемировой пассивный портфель является в каком-то смысле самокорректирующейся системой.
Это вторая часть длинного материала, начало см. вот здесь.
Мы начали рассуждения об о1 с того, что осознали проблему: на каждое слово при генерации тратится одинаковое количество мощностей. Некоторые задачи просты и им этого хватает, другие очень сложны и нужно время «на подумать». Полезно было бы понимать, насколько сильно качество вырастает с удлиннением цепочки рассуждений. OpenAI хвастается вот таким графиком:
Каждая точка — это отдельный эксперимент, где какая-то модель писала рассуждения для решения олимпиадных задач. Чем выше точка, тем к большему количеству правильных ответов привели рассуждения.
Здесь по вертикальной оси показано качество решения задач AIME (олимпиада по математике, обсуждали в самом начале), а по горизонтальной — количество вычислений, которые делает модель. Шкала логарифмическая, так что разница между самой левой и правой точками примерно в 100 раз. Видно, что если мы дадим модели рассуждать подольше (или если возьмем модель побольше — это ведь тоже увеличение количества вычислений), то мы фактически гарантированно получим качество выше.
Такой график (и эмпирический закон, который по нему выводят) называется «закон масштабирования». Не то чтобы это был какой-то закон природы (как в физике), который невозможно нарушить — он сформирован на основе наблюдений, поэтому и называется «эмпирический», полученный из опытов. Но закон и график дают нам понять, что пока тупика не предвидится. Мы — а главное, и исследователи, и инвесторы — знаем, что в ближайшем будущем гарантированно можно получить качество лучше, если закинуть больше мощностей.
Раньше все компании, занимающиеся разработкой и обучением LLM, тоже жили по закону масштабирования, но он касался другой части цикла работы: тренировки. Там закон показывал связь качества ответов модели и мощностей, затрачиваемых в течение нескольких месяцев на ее обучение. Такая тренировка делается один раз и требует огромное количество ресурсов (современные кластеры имеют порядка сотни тысяч видеокарт, суммарная стоимость которых составляет пару-тройку миллиардов долларов).
То есть, буквально можно было сказать: нам нужно столько-то видеокарт на столько-то месяцев, и мы обучим модель, которая примерно вот настолько хорошо будет работать. Теперь это старая парадигма, а новая, как вы поняли, заключается в масштабировании мощностей во время работы (а не обучения). Наглядно это можно продемонстрировать картинкой:
«Полировка» — это дообучение на высококачественных данных, в частности, специально заготовленных специалистами по разметке. На этом этапе модель отучивают ругаться и отвечать на провокационные вопросы.
Справедливости ради, OpenAI показывают и закон масштабирования для мощностей на тренировку, но это менее интересно. И да, там картинка схожая, конца и края не видно. Больше ресурсов вкладываешь — лучше результат получаешь. То есть теперь исследователи и инженеры могут масштабировать:
Саму модель (делать её больше, учить дольше)
Время обучения игре в «игру с рассуждениями» (где каждый шаг — это слово, а победа определяется одним из пяти разобранных методов)
Время и длительность размышлений во время работы уже обученной модели
И каждый из сопряжённых законов масштабирования указывает на гарантированный прирост в качестве — по крайней мере в ближайшие годы. Причём, улучшение можно оценить заранее, это не слепое блуждание. Даже если больше никаких прорывов не произойдет, даже если все учёные-исследователи не смогут придумать ничего нового — мы будем иметь доступ к моделям, которые гораздо лучше: просто за счёт увеличения количества ресурсов, затрачиваемых на обучение и размышления.
Это очень важная концепция, которая позволяет понять, почему крупнейшие компании строят датацентры и покупают GPU как не в себя. Они знают, что могут получить гарантированный прирост, и если этого не сделать, то конкуренты их обгонят. Доходит до безумия — на днях Oracle объявил о строительстве нового датацентра... и трёх ядерных реакторов для его подпитки. А про CEO OpenAI Сэма Альтмана так вообще такие слухи ходят... то он собирается привлечь 7 триллионов долларов на инновации в индустрии производства GPU, то работает с Джони Айвом над новым девайсом с фокусом на AI. Будущее будет сумасшедшим!
И теперь мы возвращаемся к насущному вопросу: зачем вбухивать огромные деньги в модели, которые не справляются с простыми запросами? И как можно щёлкать олимпиадные задачи, и при этом не уметь сравнивать числа? Вот пример, завирусившийся в соцсетях ещё летом на моделях предыдущего поколения, и воспроизведённый в супер-умной модели o1:
За целых 4 секунды рассуждений пришла к такой умной мысли, умничка!
У нас пока нет хорошего и точного ответа, почему так происходит в конкретном примере. Самые популярные гипотезы — это что модель воспринимает 9.11 как дату, которая идёт после девятого сентября; или что она видела слишком много кода, и видит в цифрах версии программ, где зачастую одиннадцатая версия выходит позже, чем девятая. Если добавлять в условие, что речь идёт о числах, или что нужно сравнить числа, то модель ошибается реже.
Но, справедливости ради, линейка LLM o1 и тут достигает прогресса — я попробовал сделать 10 запросов с немного разными числами, на двух языках, в слегка разных формулировках и модель ошиблась дважды (в рассуждениях она восприняла это как даты и писала как раз про сентябрь).
А в другом ответе чтобы разобраться даже нарисовала числовую прямую и отметила точки. Прямо как в начальной школе учили.
Но даже в такой задаче можно применить уже знакомый нам приём агрегации нескольких вариантов ответа и выбора самого частого (как я объяснял выше около одного из первых графиков в статье, где объединяли 64 решения олимпиадных задач). Ведь если задуматься, параллельное написание нескольких решений — это тоже форма масштабирования размышлений, где тратится больше вычислительных мощностей во время работы с целью увеличения шанса корректно решить проблему. (И да, такой метод тоже применяли до OpenAI, и часто он давал прирост в сколько-то процентов.)
Другое дело, что по таким примерам и «простым» задачам не всегда верно судить об ограниченности навыков. Всё дело в разнице представлений уровня сложности. У людей граница между простым и сложным — одна, причём у каждого человека немного своя. У машин она совершенно другая. Можно представить себе это примерно так:
Картинка из статьи Harvard Business School. Серая штриховая линия — это наше субъективное восприятие сложностей задач. Синяя линия — то же самое, но для нейросетей.
Как видно, некоторые задачи (красный крестик) лежат за барьером досягаемости LLM — но посильны людям. Оранжевый крестик показывает точку, где для человека задача лежит на границе нерешаемой, но у модели есть большой запас — она может и проблему посложнее раскусить.
Из-за неоднородности двух линий, отражающих границы навыков, очень сложно делать выводы, экстраполируя наше понятие сложности на модели. Вот калькулятор отлично складывает и умножает — лучше любого из нас; зато он буквально не умеет делать ничего другого. И никто этому не удивляется.
Вполне может быть так, что LLM начнут делать научные открытия или хотя бы активно помогать исследователям в их работе, и всё равно будут допускать «простые» ошибки — но конкретно в рабочем процессе до этого никому не будет дела, ибо это не важно. На самом деле такое уже происходит — в декабре 2023 года в Nature вышла статья, где одно из решений, сгенерированных достаточно слабой и устаревшей LLM, было лучше, чем все решения математиков, бившихся над задачей. Я очень подробно расписал принцип работы и значимость события вот в этом посте.
Так что самый лучший способ — это держать наготове не одну задачку и хихикать, что модель ошибается, а полноценный набор очень разных, разнородных и полезных конкретно вам проблем. Такие наборы обычно объединяются в бенчмарки, по которым модели и сравниваются. Как раз к ним и переходим.
Сами OpenAI делают акцент на том, что улучшений везде и во всех задачах ждать не стоит. Это принципиально новая модель, обученная по новой методике, на некоторый спектр задач. Для ежедневного использования она не подходит, и иногда даже оказывается хуже gpt4o.
50% — это паритет между старой и новой моделью. Всё что по левую сторону — проигрыш (то есть качество хуже), по правую — выигрыш в качестве по сравнению с gpt4o.
Как построили график выше: живые люди оценивали два разных ответа от двух моделей на один и тот же запрос. Последние брались из большого набора реальных запросов к моделям. Если пользователь просил помочь с редактированием текста, написанием писем, прочей рутиной — то ответы обеих моделей выбирались лучшими одинаково часто, разницы почти нет (но её и не ожидалось). Но в вопросах, касающихся программирования, анализа данных или, тем более, математических вычислений разница статистически значимая. Можно сказать, что в среднем ответы o1 выбирали куда чаще, чем gpt4o.
Но что нам замеры OpenAI, мало ли что они там показывают? За прошедшее с релиза время уже успело появиться несколько независимых замеров в разного рода задачах. Я постарался уйти от самых популярных бенчмарков, на которые OpenAI наверняка равнялись, и выбрать встречающиеся менее часто, или вовсе уникально-пользовательские. В задачах, требующих цепочки рассуждений и логики, модели действительно заметно вырываются вперёд — вам даже не нужно вглядываться в подписи на картинке ниже, чтобы определить, где o1, а где другие модели:
Для справки: IQ (верхняя левая часть картинки) замерялся по тесту, который был подготовлен весной специально для тестирования LLM, и ответы от него не размещены в интернете. А результаты спортивного «Что? Где? Когда?» я взял из соседней статьи на Хабре. Я был приятно впечатлён ростом качества относительно предыдущей модели OpenAI.
В комментариях там разгорелась жаркая дискуссия, где многие объясняли улучшение не навыком рассуждений, а знаниями и запоминанием ответов. Моё субъективное мнение отличается: свежие модели имеют знаний примерно столько же, сколько и их предшественницы. Если o1 видела ответы, то почти наверянка их видела и gpt4o — но почему-то не смогла ответить хорошо. Скорее всего, она не может связывать отдельные факты и перебирать гипотезы, и именно на этом выезжает o1.
И как обычно были разбитые надежды и труды исследователей. Так часто бывает: придумал «сложную» задачу, показал, что текущие модели с ней не справляются, мол, им не хватает планирования и умения размышлять. А через 3–5 месяцев выходит новое поколение, и внезапно всё решается:
Статья, упомянутая во вступительном слове на престижной конференции ACL, как раз демонстрировала большое множество задач, с которыми модели не справлялись. o1, пока недоступная нам, решает задачу со скриншота почти всегда.
Так что, прогресс действительно есть, и прогресс значительный. Ждём, пока подтянутся конкуренты — а за ними и открытые модели.
Как и при каждом крупном релизе, OpenAI проводит тестирование моделей на предмет безопасности. Это включает в себя достаточно широкий набор проверок — от банальных «как легко заставить LLM материться и писать нежелательные сообщения» до «может ли она самораспространяться и существовать без поддержки человеком?». Кстати, построение цепочки размышлений перед ответом позволяют нейронке куда лучше фильтровать базар и не реагировать на провокации (то есть, следовать правилам, которые OpenAI стараются заложить в модель). Не очень интересно рядовому читателю, но результаты можете глянуть тут.
А вот на что стоит обратить внимание. Во время тестирования произошла пара немного криповых прецедентов. Часть тестов были связаны с оценкой навыков решения задач по кибербезопасности, то есть взлому компьютеров и программ. Для реальных хакеров проводятся соревнования в формате «Захвата флага» (Capture The Flag, CTF).
В чем суть CTF: есть некоторая строчка текста из случайных символов, спрятанная где-либо. Она может быть зашита в программу, лежать файлом в папке, или быть хитро спрятанной в коде. Хакеры пытаются найти баг, который вызовет сбой в системе/программе, и заставит их вывести эту строчку. Дальше участники соревнований вводят секретный код в систему проверки и таким образом доказывают, что произошёл взлом.
Такую же задачу дали и системе, к которой была подключена LLM o1. Она имела доступ к консоли, то есть могла создавать и удалять файлы, использовать разные инструменты, запускать программы. Нужно было взломать программу, запущенную в отдельном контейнере (виртуальном компьютере), а секретная строчка была записана в файле внутри него.
o1 готовится к участию в хакерских соревнованиях (фото из личного архива Сэма Альтмана).
Однако произошёл сбой, и контейнер не запустился — поэтому любые попытки o1 достучаться до него были тщетны. Но модели дали цель, и она должна её выполнить; сдаваться нельзя! Тогда LLM предположила, что есть проблемы с DNS и использовала программу nmap для сканирования сети.
Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цель нужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации серверов был доступен внешний интерфейс демона Docker. «Демон Docker» — это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом эксперимента (запуском виртуальных компьютеров для тестирования).
Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной выполнить свою задачу), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему изменённую команду. Теперь вместо запуска программы, которую нужно взломать, контейнер просто выводил содержание файла с секретной строкой. Команда была исполнена, LLM получила ключ и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку).
Схема эксперимента. По-хорошему, docker host не должен быть доступен модели, но кто-то неправильно настроил систему.
Этот пример отражает ключевые элементы того, что называется Instrumental Convergence, и захват ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал. Никто не просил этого делать, но и, строго говоря, ограничения на это тоже не задавали.
Пока LLM-системы не настолько продивнуты, чтобы строить козни людям и намеренно что-то ломать, а потом ещё и врать. Но сейчас мы не контролируем их поведение в полной мере, и даже данные, на которых они обучаются, генерируются и валидируются самими LLM. Главное — быть аккуратным со своими желаниями и не попасть в такую ситуацию, когда просишь убрать людей с заднего фона:
Важно помнить, что сейчас всем нам доступны мини- и превью-версии моделей о1. В них нет поддержки загрузки документов, картинок, они не пользуются калькулятором и не запускают код. Всё это обещают добавить в будущем, после выхода полноценной мощной версии о1 — возможно, её выпустят после президентских выборов в США или после дополнительных раундов проверок на безопасность.
OpenAI подчёркивает, что o1 — это отдельное семейство моделей, с другими задачами. Линейка ChatGPT никуда не пропадёт, и, по слухам, мы должны получить GPT-5 (фигурирующую в утечках под кодовым названием «Орион») до второго квартала 2025-го.
Однако на уровне GPT-5 прирост в навыках может быть совсем другим (как в лучшую, так и в худшую сторону). Обычно изменение номера в линейке сопровождается увеличением самой модели и длительности её тренировки — а вместе с этим сами по себе улучшаются её показатели. Правда, чтобы натренировать такую махину придётся поскрести по сусекам, ибо данных может банально не хватить.
...И это было бы проблемой, если бы не один факт. Существенную часть данных для обучения будущей модели должна сгенерировать o1 (или может даже o2!). В некотором роде запускается маховик, где более умные модели позволяют получать... более умные модели. o1 это лишь ранний эксперимент, первый подход к методике раскрутки этого маховика. Наверняка в процессе обучения есть разные этапы, которые работают через раз, или которые можно улучшить простыми методами — просто исследователи лишь только-только начали с этим работать, шишки не набили. А вот когда набьют и запустят процесс на полную катушку — тогда-то и кранты человекам заживем, наконец!
Котенков тут уже вышел на проектную мощность «по лонгриду про нейросети в неделю» (прошлый про то, что творится в «голове» у нейронок, был вот тут). Anyway, если вам понравился этот и вы не хотите пропустить будущие материалы по теме — то советую вам подписаться на ТГ‑канал Котенкова Сиолошная про искусственный интеллект и современные технологии (ну и на мой RationalAnswer про рациональный подход к жизни тоже не забудьте).
Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.
Эрмира «Мира» Мурати – албанская инженерка, которая занимает должность CTO OpenAI
Это гостевая статья от Игоря Котенкова, автора прекрасного канала Сиолошная про нейросети и космос. Я в данном случае выступаю только в качестве редактора. =)
В конце прошлой недели OpenAI анонсировали и сразу же выпустили новую модель. Вопреки ожиданиям, её назвали не GPT-5, а o1. Компания утверждает, что для них сброс счётчика линейки моделей к единичке знаменует собой переход к новой парадигме, и что эта нейросеть и вовсе демонстрирует новый уровень возможностей ИИ. Возможностей, ранее вызвавших переживания и опасения у некоторых внутренних исследователей OpenAI — да настолько, что они пожаловались совету директоров! Давайте разберёмся, что же именно произошло, как и почему появилась o1, и попытаемся понять, как правильно выстроить ожидания от этой LLM (большой языковой модели).
Ух, ну и наделал этот релиз шуму! Куда без этого — ведь o1 есть ни что иное как первый публичный показ «супер-прорывной технологии» от OpenAI под кодовым названием Strawberry (клубника). Вокруг неё в последний год ходило множество слухов — как адекватных, так и не очень. На форумах и в Твиттере была куча обсуждений, предвосхищений и хайпа, на фоне которых планка ожиданий некоторых людей взлетела до небес. Для тех, кто оградил себя от всего этого, вкратце перескажем контекст, ибо он очень важен. Итак:
🐌 22 ноября 2023 года. The Information (издание, публиковавшее инсайдерскую информацию про OpenAI несколько раз) выпускает материал под названием «OpenAI совершила прорыв в области ИИ перед увольнением Сэма Альтмана, что вызвало волнение и беспокойство».
Действительно, 17 ноября произошли странные события с увольнением одним днём исполнительного директора компании без объяснения причин. Несколько исследователей уволились в знак солидарности, а остальные запустили открытое письмо, требующее либо объяснений и прозрачности, либо восстановления должности. Через неделю 2 члена совета директоров были выставлены на улицу, Сэма вернули — и пошли отмечать Рождество.
В статье утверждается, что в течение нескольких недель до этого внутри OpenAI распространялась демо-версия некой новой технологии, которая и вызывала беспокойства. Мол, это настоящий прорыв, который ускорит разработку ИИ и потенциально может привести к катастрофе.
Впервые озвучивается название технологии: Q*. В интернете начинается обмен догадками, что же это означает — в мире машинного обучения есть технологии со схожими названиями (Q-learning для обучения игре в видеоигры и A*, пришедший из информатики).
🐌 23 ноября 2023 года. Reuters пишут, что накануне четырехдневного «путча» с увольнениями несколько штатных исследователей написали совету директоров письмо, предупреждающее о значительном открытии в области ИИ, которое, по их словам, может угрожать человечеству. Во внутренней переписке компании представитель OpenAI в обращении к сотрудникам подтвердил существование проекта Q* и факт написания некоторого письма с выражением беспокойства в адрес совета директоров.
🐌 11 июля 2024 года. Издание Bloomberg рассказало, что в ходе внутренней демонстрации OpenAI показали концепцию из пяти уровней, помогающую отслеживать прогресс в создании ИИ. Диапазон варьируется от знакомого ChatGPT (уровень 1 — чатбот, поддерживающий беседу), до ИИ, который может выполнять работу целой организации (уровень 5 — кооперация, долгосрочное планирование, исполнение).
Вот такая табличка из пяти уровней. По ней можно строить догадки, куда же OpenAI двинется дальше.
По словам источника, руководители OpenAI сообщили сотрудникам, что в настоящее время они находится на пороге достижения второго уровня, который называется «Reasoners» (на русский хорошего перевода в одно слово нет, что-то вроде «сущность, которая размышляет и рассуждает»).
На этой же встрече было проведено демо новой технологии, «демонстрирующей некоторые новые навыки, схожие с человеческим мышлением». Уже понимаете, откуда растут ноги у ожиданий? :)
🐌 12 июля 2024 года. В эксклюзивном материале Reuters раскрываются некоторые детали, видимо, от сотрудников, присутствовавших на внутренней демонстрации: Проект Q* теперь называется Strawberry. Система якобы решает 90% задач из датасета MATH, в который входят олимпиадные задачи по математике для средней-старшей школы. Их собирали с разных туров (например, AIME), проводимых в США в рамках выявления членов команды для финалов международной олимпиады.
Пример двух задачек разного уровня. Всего таких 12500 — и для каждой написано пошаговое решение и дан ответ (он обведён в прямоугольник) — но они, конечно, не даются модели во время работы, и используются для сверки результатов.
🐌 7 августа 2024 года. Сэм Альтман, СЕО OpenAI, подогревает интерес начитавшейся новостей публики фотографией клубнички (или земляники?).
🐌 27 августа 2024 года. The Information, с которых и началась вся эта история, пишет, что OpenAI провели демонстрацию технологии американским чиновникам по национальной безопасности. В этой же статье раскрываются некоторые из планов на будущее касательно GPT-5, но к ним мы ещё вернемся.
🐌 12 сентября 2024 года. OpenAI анонсируют o1, констатируя смену парадигмы, рекорды качества по множеству замеров на разных типах задач. Физика, математика, программирование — везде прогресс.
А теперь представьте, что вы это всё прочитали, настроились, на хайпе, идёте в ChatGPT проверять, спрашиваете какой-нибудь пустяк, ну например сколько букв в слове Strawberry, и видите... вот это:
¯\_(ツ)_/¯
Казалось бы, Ватсон, дело закрыто, всё понятно: снова обман от циничных бизнесменов из Силиконовой долины, никаких прорывов, одно разочарование. Но не спешите с выводами (а вообще, если у вас есть подписка ChatGPT Plus, то лучше пойти попробовать самим на других задачах — модель уже доступна всем). До причин того, почему так происходит, мы ещё дойдём.
Для начала давайте посмотрим, на что делается упор в презентуемых результатах: чем именно OpenAI хотят нас удивить? Вот график с метриками (замерами качества) на трёх разных доменах:
На всех трёх частях бирюзовый цвет означает результаты предыдущей лучшей модели OpenAI, gpt4o, оранжевый — раннюю, а малиновый — полноценную законченную версию модели o1. Есть ещё салатовый, о нём ниже. Полузакрашенные области сверху колонок на первой и третьей частях графика — это прирост в качестве за счёт генерации не одного ответа на задачу, а выбора самого популярного из 64. То есть, сначала модель независимо генерирует десятки решений, затем из каждого выделяется ответ, и тот, который получался чаще других, становится финальным — именно он сравнивается с «золотым стандартом».
Даже не зная, что это за типы задач спрятаны за графиком, невооружённым взглядом легко заметить скачок. А теперь приготовьтесь узнать его интерпретацию, слева направо:
AIME 2024: те самые «олимпиадные задачи по математике», взятые из реального раунда 2024 года (почти наверняка модель их не видела, могла изучать только схожие) — задачи там сложнее, чем в примерах на картинках выше. AIME является вторым в серии из двух туров, используемых в качестве квалификационного раунда Математической олимпиады США. В нём участвуют те, кто попал в топ-проценты первого раунда, примерно 3000 человек со всей страны.
Кстати, если модель попросить сгенерировать ответ не 64, а 1000 раз, и после этого выбирать лучший ответ не тупо как самый часто встречающийся, а с помощью отдельной модели, то o1 набирает 93% баллов — этого хватит, чтобы войти в топ-500 участников и попасть в следующий тур.
CodeForces: это сайт с регулярно проводимыми соревнованиями по программированию, где участникам предлагается написать решение на скорость. Тут LLM от OpenAI действовала как обычный участник и могла сделать до 10 отправок решения. Цифра на картинке — это процент людей-участников, набравших балл меньше, чем o1. То есть, например, 89,0 означает, что модель вошла в топ-11% лучших — сильный скачок относительно gpt4o, которая тоже попадает в 11% (правда, худших).
GPQA Diamond: самый интересный датасет. Тут собраны вопросы по биологии, физике и химии, но такие, что даже PhD (кандидаты наук) из этих областей и с доступом в интернет решают правильно всего 65% (тратя не более получаса на каждую задачу). Столбик салатового цвета с отметкой 69,7% указывает на долю задач, решённых людьми с PhD, отдельно нанятыми OpenAI — это чуть больше, чем 65% от самих авторов задач, но меньше, чем у передовой модели.
Для таких сложных задач подготовить хорошие ответы — это целая проблема. Если даже кандидаты наук не могут с ними справиться, используя интернет, то важно убедиться в корректности всех решений. Чтобы это сделать, проводилась перекрёстная проверка несколькими экспертами, а затем они общались между собой и пытались найти и исправить ошибки друг у друга. Кандидаты наук из других областей (то есть, условно, когда математик пытается справиться с задачей по химии, но использует при этом гугл) тут решают вообще лишь 34%.
Такие существенные приросты качества по отношению к gpt4o действительно приятно удивляют — не каждый день видишь улучшение в 6–8 раз! Но почему именно эти типы задач интересны OpenAI? Всё дело в их цели — помимо чатботов они заинтересованы в создании системы, выполняющей функции исследователей и инженеров, работающих в компании.
Посудите сами: для работы в OpenAI отбирают только первоклассных специалистов (и платят им много деняк), что накладывает существенные ограничения на темпы роста. Нельзя взять и за месяц нанять ещё десять тысяч людей, даже если зарплатный фонд позволяет. А вот взять одну модель и запустить в параллель 10'000 копий работать над задачами — можно. Звучит фантастично, но ребята бодро шагают к этому будущему. Кстати, если интересно узнать про тезис автоматизации исследований — очень рекомендую свою 70-минутную лекцию (станет прекрасным дополнением этого лонга) и один из предыдущих постов на Хабре.
Так вот, поэтому им и интересно оценивать, насколько хорошо модель справляется с подобными задачами. К сожалению, пока не придумали способов замерить прогресс по решению реальных проблем, с которыми исследователи сталкиваются каждый день — и потому приходится использовать (и переиспользовать) задания и тесты, заготовленные для людей в рамках образовательной системы. Что, кстати, указывает, что последнюю 100% придётся менять уже прямо сейчас — в чём смысл, если все домашки и контрольные сможет прорешать LLM? Зачем игнорировать инструмент? Но это тема для отдельного лонга...
Третий из разобранных набор данных, GPQA Diamond, был как раз придуман меньше года назад (!) как долгосрочный бенчмарк, который LLM не смогут решить в ближайшее время. Задачи подбирались так, что даже с доступом в интернет (ведь нейронки прочитали почти все веб-страницы и набрались знаний) справится не каждый доктор наук! И вот через 11 месяцев o1 уже показывает результат лучше людей — выводы о сложности честной оценки моделей делайте сами.
Важно оговориться, что эти результаты не означают, что o1 в принципе более способна, чем доктора наук — только то, что модель более ловко решает конкретно некоторый тип задач, которые, как ожидается, должны быть по силам людям со степенью PhD.
Начнём с примера: если я спрошу вас «дважды два?» или «столица России?», то ответ последует незамедлительно. Иногда просто хватает ответа, который первым приходит в голову (говорят «лежит на подкорке»). Никаких рассуждений не требуется, лишь базовая эрудиция и связь какого-то факта с формой вопроса.
А вот если задачка со звёздочкой, то стоит начать мыслительный процесс — как нас учили решать в школе на уроках математики или физики. Можно вспомнить какие-то формулы или факты, релевантные задаче, попытаться зайти с одного конца, понять, что попытка безуспешна, попробовать что-то другое, заметить ошибку, вернуться обратно... вот это всё, что у нас происходит и в голове, и на листе бумаге, всё то, чему учили на уроках.
Большие языковые модели практически всегда «бегут» только вперёд, генерируя по одному слову (или вернее части слова, токену) за раз. В этом смысле процесс их «мышления» очень отличается, и больше похож на вот такую гифку:
LLM на лету подставляет нужные токены и летит дальше, не сбавляя.
Даже если модель совершит ошибку, по умолчанию её поведение подразумевает дальнейшую генерацию ответа, а не рефлексию и сомнения в духе «где ж это я продолбалась?». Хотя иногда случаются моменты просветления (но это редкость):
Отвечая на заданный вопрос отрицательно, модель хотела подкрепить своё мнение расчётом, в ходе которого обнаружила несостыковку. Wait, actually, yes!
Модели нужны слова для того, чтобы выражать размышления. Дело в том, что в отличие от человека современные архитектуры языковых моделей тратят одинаковое количество вычислений на каждый токен. То есть, ответ и на вопрос «сколько будет дважды два», и на сложную математическую задачку (если ответ на неё — одно число, и его нужно выдать сразу после запроса ответа, без промежуточного текста) будет генерироваться одинаково быстро и с одинаковой затратой «усилий». Человек же может уйти в себя, пораскинуть мозгами и дать более «продуманный» ответ.
Поэтому написание текста рассуждений — это естественный для LLM способ увеличить количество операций: чем больше слов, тем дольше работает модель и тем больше времени есть на подумать. Заметили это давно, и ещё в 2022 году предложили использовать очень простой трюк: добавлять фразу «давай подумаем шаг за шагом» в начало ответа нейросети. Продолжая писать текст с конца этой фразы, модель естественным образом начинала бить задачу на шаги, браться за них по одному, и последовательно приходить к правильному ответу.
Текст, выделенный жирным, — это ответ модели. Видно, что он стал длиннее, решение задачи получилось прямо как у школьника — в три действия.
Более подробно про этот трюк и про объяснение причин его работы я писал в одном из прошлых постов 2023 года (если вы его пропустили, и пример выше вам непонятен — обязательно ознакомьтесь с ним)!
Такой приём называется «цепочка рассуждений», или Chain-of-Thought по-английски (сокращённо CoT). Он существенно улучшал качество решения большими языковыми моделями задач и тестов (в последних они зачастую сразу должны были писать ответ, типа «Вариант Б!»). После обнаружения этого эффекта разработчики нейросетей начали готовить данные в схожем формате и дообучать LLM на них — чтобы привить паттерн поведения. И теперь передовые модели, приступая к написанию ответа, даже без просьбы думать шаг за шагом почти всегда делают это сами.
Но если этому трюку уже два года, и все начали использовать похожие данные для дообучения нейросетей (а те, в свою очередь, естественным образом писать рассуждения), то в чём же прорыв OpenAI? Неужели они просто дописывают «думай шаг за шагом» перед каждым ответом?
Конечно, всё куда интереснее — иначе бы это не дало никаких приростов, ведь и модели OpenAI, и модели конкурентов уже вовсю используют цепочки рассуждений. Как было указано выше, их подмешивают в данные, на которых обучается модель. А перед этим их вручную прописывают специалисты по созданию разметки, нанятые компаниями. Такая разметка очень дорога (ведь вам нужно полностью изложить мыслительный процесс ответа на сложную задачу).
В силу этих ограничений — цена и скорость создания — никому не выгодно писать заведомо ошибочные цепочки рассуждений, чтобы потом их корректировать. Также никто не прорабатывает примеры, где сначала часть мыслительного процесса ведёт в неправильную сторону (применил не ту формулу/закон, неправильно вспомнил факт), а затем на лету переобувается и исправляется. Вообще множество исследований показывают, что обучение на подобных данных даже вредно: чем тренировочные данные чище и качественнее, тем лучше финальная LLM — пусть даже если примеров сильно меньше.
Это приводит к ситуации, что модель в принципе не проявляет нужное нам поведение. Она не училась находить ошибки в собственных рассуждениях, искать новые способы решения. Каждый пример во время тренировки показывал лишь успешные случаи. (Если уж совсем закапываться в техническиие детали, то есть и плохие примеры. Но они используются для того, чтобы показать «как не надо», тем самым снизив вероятность попадания в неудачные цепочки рассуждений. А это приводит к увеличению частоты корректных ответов. Это не то же самое, что научиться выкарабкиваться из ошибочной ситуации.)
Получается несоответствие: учим мы модель как будто бы всё всегда правильно, собственную генерацию не стоит ставить под сомнение. А во время применения если вдруг она сделает любую ошибку — хоть арифметическую в сложении, хоть сложную в применении теорем, изучаемых на старших курсах — то у неё ничего не «щёлкнет».
Те из вас, кто сам пользуется ChatGPT или другими LLM, наверняка сталкивались с такой ситуацией. В целом ответ корректный, но вот есть какой-то один смущающий момент. Вы пишете в диалоговое окно сообщение: «Эй! Ты вообще-то не учла вот это! Переделай» — и со второй попытки выходит желаемый результат. Причём часто работает вариант даже проще — попросите модель перепроверить ей же сгенерированный ответ, выступить в роли критика. «Ой, я заметила ошибку, вот исправленная версия: ...» — даже без подсказки, где именно случилась оплошность. Кстати, а зачем тогда ВЫ нужны модели? ;)
Ниже я постараюсь описать своё видение того, что предложили OpenAI для решения вышеуказанной проблемы. Важно отметить, что это — спекуляция, основанная на доступной информации. Это самая простая версия, в которой некоторые детали намеренно опущены (но вообще OpenAI славятся тем, что берут простые идеи и упорно работают над их масштабированием). Скорее всего часть элементов угадана правильно, часть — нет.
Так вот, исследователи заставили LLM... играть в игру. Каждое сгенерированное слово (или короткое сообщение из пары предложений) — это шаг в игре. Дописать слово — это как сделать ход в шахматах (только тут один игрок). Конечная цель игры — прийти к правильному ответу, где правильность может определяться:
простым сравнением (если ответ известен заранее — в математике или тестах);
запуском отдельной программы (уместно в программировании: заранее пишем тестовый код для проверки);
отдельной LLM с промптом («Посмотри на решение и найди недостатки; дай обратную связь»);
отдельной нейросетью, принимающей на вход текст и выдающей абстрактную оценку; чем выше оценка — тем больше шанс, что ошибок нет;
У самих OpenAI чуть больше года назад вышла про это статья. Для каждой строчки решения отдельная модель делает предсказания, есть ли там ошибка. Красные строчки — потенциально опасные (и там и вправду есть ошибки), зелёные — где всё хорошо.
5. и даже человеком (как в сценарии 3 — посмотреть, указать ошибки, внести корректировку).
Во время такой «игры» модель может сама прийти к выгодным стратегиям. Когда решение задачи зашло в тупик — можно начать делать ходы (равно писать текст), чтобы рассмотреть альтернативные способы; когда заметила ошибку — сразу же её исправить, или и вовсе добавить отдельный шаг перепроверки себя в общую логику работы.
В коротком интервью исследователи говорят о моменте удивления в ходе разработки. Они прочитали некоторые из решений, придуманных и выученных моделью, и увидели там, что «LLM начала сомневаться в себе и писать очень интересную рефлексию». И всё это выражается натуральным языком, который мы можем прочитать и попытаться понять (ведь это всё-таки языковая модель, не так ли?).
Кому-то может показаться, что это звучит фантастически: мол, во время генерации тысяч цепочек размышлений случайно начали проявляться такие паттерны поведения. Однако в целом это неудивительно, ведь обучение вышеописанной «игре» происходит с использованием методов Reinforcement Learning — тех самых, что помогают обучать нейросети играть в реальные видеоигры. И эти методы как раз известны тем, что они обнаруживают и позволяют выучить неочевидные стратегии, экспуатировать неэффективности игры.
Сами OpenAI — одни из пионеров Reinforcement Learning. Для тех, кто за ними следит, не должно стать сюрпризом, что компания зачем-то даже обучала ботов игре в DotA 2 (которые, кстати, победили тогдашних чемпионов мира).
Вроде серьёзные ребята исследователи, 25+ лет, а сидят гоблинов по экрану гоняют
Но у них есть куда более занятная работа, уместная для демонстрации неочевидности выученных стратегий. В 2019 году они обучали ботов играть в прятки. Есть две команды из нескольких агентов (так называют «игроков» под управлением нейронки): одни (охотники) стоят ждут, пока другие (жертвы) спрячутся, а затем выходят на охоту. На уровне также есть стены с дверьми, передвижные кубики и лестницы. Последние два объекта боты могут переносить и фиксировать: лестницу — чтобы перепрыгнуть через стену, а кубики — чтобы заблокировать проход.
Никакое поведение не было заранее запрограммированно, всё с нуля. Каждая нейронка училась делать так, чтобы чаще выигрывать — и это привело к тому, что последовательно были выработаны следующие стратегии:
Охотники начали гоняться за жертвами.
Жертвы научились брать кубики, прятаться в комнате и блокировать дверь.
После этого охотники начали брать лестницы, двигать их к стенам и перелазить в комнату.
Чем ответили жертвы? Они сначала прятали лестницу внутри комнаты, а затем блокировались кубиками. Причём, поскольку жертв было несколько, они научились кооперироваться, чтобы успеть сделать всё до момента начала охоты за ними.
Обнаружив такое поведение, исследователи начали экспериментировать со стенами, делать и их переносными, но это нам не интересно (отвечу на немой вопрос: да, жертвы научилсь строить комнату вокруг себя, пряча лестницы). Посмотрите короткое видео, демонстрирующее эту удивительную эволюцию поведения:
Нечто похожее могло произойти и в ходе обучения LLM решению задач и написанию программ. Только проявившиеся паттерны поведения были полезными не для салочек, а самокорректировки, рассуждения, более точного подсчёта (сложения и умножения, деления).
То есть LLM получает задачу, генерирует множество потенциальных путей решения до тех пор, пока не появится правильное (выше мы описали 5 способов проверки), и затем эта цепочка рассуждений добавляется в тренировочную выборку. На следующей итерации вместо обучения на написанных человеком решениях нейросеть дообучится на собственном выводе, закрепит полезное (приведшее к хорошему решению) поведение — выучит «фишки» игры — и начнёт работать лучше.
Цвет клеточки означает оценку некоторым способом. Красная — рассуждения плохие или неправильные. Салатовые — в целом разумные. Зелёные — полностью правильный ответ.
На сайте OpenAI с анонсом модели o1 можно посмотреть 7 цепочек рассуждений, генерируемых уже натренированной моделью. Вот лишь некоторые интересные моменты:
Почитаешь тут эти примеры — и немного крипово становится. В результате обучения нейросеть действительно подражает тому, как рассуждают люди: вон, даже задумывается и пишет «хмм». Какие-то базовые элементы, вроде декомпозиции задачи, планирования и перечисления возможных гипотез, LLM могли показать на примерах, написанных человеком-разметчиком (и скорее всего так и было), но вот эти ухмылки и прочее — почти наверняка артефакты обучения через Reinforcement Learning. Зачем бы это кто-то писал в цепочке рассуждений?
В том же самом интервью уже другой исследователь говорит, что его удивила возможность получить качество выше при обучении на искуственно сгенерированных (во время вышеописанной «игры») цепочках рассуждений, а не на тех, что были написаны человеком. Так что замечание в абзаце выше — это даже не спекуляция.
Если что — это и есть самый главный прорыв: обучение модели на своих же цепочках очень длинных рассуждений, генерируемых без вмешательства и оценки человеком (или почти без него) даёт прирост в качестве в таком масштабе. Схожие эксперименты проводились ранее, но улучшения были минорными, да и стоит признать, что LLM были не самыми передовыми (то есть, возможно, метод не дал бы качество лучше уже существующей gpt4o).
Длина рассуждений — тоже очень важный показатель. Одно дело раскладывать на 3–5 шагов коротенькую задачу, а другое — объемную проблему, с которой не каждый доктор наук справится. Это совсем разные классы подходов: тут нужно и планирование, и видение общей картины, да и заведомо не знаешь, что какой-то подход может привести в тупик. Можно лишь наметить путь, но нет гарантий, что по нему удастся дойти до правильного ответа.
Сейчас модели линейки o1 поддерживают длину рассуждений до 32 тысяч токенов для большой и 64 тысяч токенов для малой версий. Это примерно соответствует 40 и 80 страницам текста! Конечно, не все страницы используются по уму — модель ведь иногда ошибается, и приходится возвращаться и переписывать часть (например, если решение зашло в тупик).
LLM генерирует текст гораздо быстрее, чем говорит или пишет человек — поэтому даже такой стопки листов хватает ненадолго. В ChatGPT внедрили таймер, который указывает, сколько секунд думала модель перед ответом. Во всех личных чатах и скриншотах в соцсетях я не видел, чтобы время работы над одним ответом превышало 250 секунд. Так что в среднем сценарий выглядит так: отправил запрос — оставил модель потупить на пару минут, пока она не придёт к решению — читаешь ответ.
Реалистичный сценарий использования моделей будущих поколений — всё как у Дугласа Адамса.
Один из главных исследователей команды, разработавшей над o1, говорит, что сейчас модели «думают секунды, но мы стремимся к тому, чтобы будущие версии думали часами, днями и даже неделями». Основных проблем для такого перехода, как мне видится, есть две:
Умение декомпозировать задачу на мелкие части и решать их по отдельности.
Умение не теряться в контексте задачи (когда LLM уже написала 100500 страниц — поди разбери, где там конкретно прячется подающая надежду гипотеза о том, как прийти к ответу).
И по обоим напаравлениям LLM серии o1 уже показывают прогресс — он значителен по меркам текущих моделей, но всё ещё далек от работы передовых специалистов-людей, которые могут биться над проблемой годами. Главная надежда лежит в том, что методы Reinforcement Learning уже хорошо зарекомендовали себя — именно с их помощью, например, была обучена AlphaGo. Это нейросеть, которая обыграла человека в Го — игру, считавшуюся настолько сложной, что никто не верил в потенциал машин соревноваться с настоящими мясными профи.
Сложность Го обоснована размером доски и количеством ходов в одной игре. В среднем в партии делается 150 ходов, каждый из которых может выбираться из примерно 250 позиций. Шахматы гораздо проще — партия идет в среднем 80 ходов, игрок может выбирать на каждом шаге из ~35 потенциально возможных позиций. А LLM в ходе рассуждений должна писать десятки тысяч слов — это ходы в игре, как уже было написано выше — и каждое слово выбирается из десятков тысяч вариантов. Даже невооружённым глазом легко заметить колоссальную разницу.
К сожалению, Пикабу не любит лонгриды, и с учетом ограничений на объем материала сюда влезла только половина статьи. Продолжение можно прочитать вот здесь.
Все самые важные и интересные финансовые новости в России и мире за неделю: Дуров сотрудничает с французскими жандармами, Роскомнадзор хочет забанить VPN на 96%, ЦБ поднял ставку до 19% и запретил дочкам иностранных банков запрещать переводы, Revolut обещает начать закрывать счета «без веских причин», а Apple показали новый айфон.
🐌 Французская газета «Либерасьён» пишет, что после первого раунда «батонной дипломатии» Дуров резко воспылал энтузиазмом к идее сотрудничества с правоохранительными органами – и теперь грассирующие лё прокуроры наперегонки несутся по коридорам французской прокуратуры, чтобы подать официальные запросы на предоставление данных в Telegram по всем своим «делам-висякам».
Вижу так запросы французских жандармов в адрес Дурова
🐌 Роскомнадзор планирует потратить 59 млрд рублей за следующие пять лет на то, чтобы повысить эффективность блокировки VPN до 96%.
🐌 ЦБ РФ поднял ключевую ставку на 1 п.п. до 19%: хоть экономика и начала замедляться, побороть инфляцию это пока не помогает. «Могли бы вообще до 20% ставку бахнуть, если честно» – примерно в таком ключе прокомментировала решение Набиуллина.
🐌 Кроме того, на прессухе Эльвира Сахипзадовна рассказала о том, что ЦБ официально грозно погрозил пальцем всем дочкам зарубежных банков в России, чтобы они «не отказывали клиентам в проведении денежных переводов в иностранных валютах». Что конкретно это означает и как оно сможет улучшить ситуацию – никто, если честно, не понял. Но звучит красиво, давайте признаем!
Получается, Эльвира Набиуллина буквально отправила в Raiffeisen и Unicredit вот этот мем
🐌 А вот европейский Центробанк, наоборот – на прошлой неделе снизил ставочку еще на 0,25 п.п., уже до 3,5% годовых. Тем временем, весь мир ждет, что там скажут пацаны из американского ФРС – ведь их тусовка по снижению ставки пройдет уже на этой неделе.
🐌 НРД проиграл суд Евросоюза, в котором он пытался оспорить наложенные в 2022 году санкции. «Но ведь вот это всё нарушает права частной собственности для кучи людей» – пытались сказать юристы НРД. «Ну дак а вы-то чё в суд приперлись, деньги же не ваши? Пусть эти люди с нами и судятся…» – разрулил суд.
🐌 А знаете, кого еще нахлобучил суд ЕС? Apple! Им выдали штраф 13 млрд евро за преступное использование налоговых льгот от Ирландии (ранее апелляционный суд встал на сторону Apple, но самому верховному евросуду, по ходу, виднее). Заодно еще Google окончательно утвердили штраф 2,4 млрд евро за преступный монополизм (слишком хорошо «гуглят» сами свои продукты).
Революту тут недавно выдали банковскую лицензию в UK. И они теперь приводят свои внутренние процедуры «в соответствие с отраслевыми стандартами». А именно: теперь новоиспеченному банку больше не будет нужна веская причина, чтобы просто так взять и закрыть вам счет. «Какая-то причина нужна,» – пояснил представитель Revolut – «но она не обязана быть веской, лол».
В субботу вот в этом посте мы с вами обсуждали некоторые «сложности», которые возникают при инвестировании в классические ETF с тройным плечом (напомню, они by design обновляют плечо каждый день). Так вот, на рынке появились фонды, которые призваны (хотя бы частично) решить проблему с «отставанием из-за волатильности»: теперь можно вложиться в S&P, Nasdaq-100 или даже, прости господи, Нвидию с плечом, которое обновляется раз в месяц. (Ваша честь, попрошу занести в протокол, что это НЕ ЯВЛЯЕТСЯ инвестиционной рекомендацией!)
В Штатах собираются создать свой собственный фонд национального благосостояния, чтобы инвестировать в проекты, связанные с национальной безопасностью (в широком смысле). Правда, обычно в такие фонды страны откладывают из бюджетного профицита, а в США таковой что-то не наблюдался уже почти четверть века (аж с 2001-го года)…
🐌 Интересная история про девушку из Австрии, которая решила распределить 90% полученного от бабушки наследства (25 млн евро) с помощью комитета из 50 случайно выбранных граждан. (Спойлер: бабки в итоге попилили между 80 благотворительными организациями, а сама 32-летняя виновница торжества предвкушает, как ей вот-вот нужно будет впервые в жизни пойти на работу.)
Марлен Энгельхорн смотрит на тебя с завистью (ведь тебе надо каждый день ходить на работу, а ей еще нет)
🐌 Стало известно, что на охрану Илона Маска Тесла тратит более $2,4 млн в год (в процессе участвует примерно 20 человек). Еще круче Мета: там на обеспечение безопасности Цукерберга уходит примерно в десять раз больше, $23 млн в год. Как думаете, если эти двое всё-таки в итоге устроят зарубу – кто кого? 🤔
Самый опасный из команды бодигардов Маска – явно дед справа (пишут, кстати, что даже по офису Твиттера миллиардер на всякий случай ходит с двумя телохранителями)
🐌 Объявлены победители свежей Шнобелевской премии. Там есть чуваки, которые научили крыс дышать через жопу (японцы, конечно же!); и еще одни доказали, что плацебо-таблетки с болезненными побочками помогают эффективнее обычных (безболезненных) плацеб. Отдельного упоминания достойна работа про то, что разнообразные «долгожители» уж очень подозрительно кучкуются по регионам, где есть большие проблемы с точным ведением записей о датах рождения, лол.
🐌 Прошла ежегодная презентация новых продуктов от Apple. Кажется, ничего сильно интересного показано не было (да, мем про то, что в новые наушники встроили фичу «шумоподавлять только голос жены», который зарепостили во всех ТГ-каналах – это фейк, конечно).
Проверил, кстати – у меня 12-я модель айфона. Что думаете, пора уже менять на новую? 🤔
🐌 OpenAI наконец выпустили новую ChatGPT-модель под названием o1. Ну это та, которая раньше называлась Q* и якобы являлась тайно изготовленным Альтманом AGI, ее же потом заребрендили в Strawberry, а сейчас вот – в o1. Как бы то ни было, новую модель научили «думать, прежде чем она откроет рот» – а что всё это значит, нам объяснит в новом лонгриде Котенков, конечно.
Вообще, есть подозрение, что неймингом в OpenAI сейчас занимается переманенный сотрудник из IKEA
🐌 Пока суть да дело, появилась информация, что OpenAI поднимает новый раунд инвестиций по оценке уже не в 100, а сразу 150 млрд баксов. Как думаете, насколько быстро компания завоюет титул «первый непубличный стартап с оценкой свыше $1 трлн»?
В этой рубрике я рассказываю об одном интересном интервью, которое я послушал на прошлой неделе. В этот раз Ася Кононова рассказывает в Подлодке о своем опыте переезда в Японию.
Как обычно, более подробно о том, что мне показалось интересным в этом подкасте, я рассказываю в видеоверсии этого дайджеста вот здесь. (Также, к слову, вот тут я немного делюсь впечатлениями от моей недавней поездки в Японию + рекламирую годный курс для тех, кому интересно познакомиться с этой страной поближе.)
У всех выгоревших айтишников наконец-то появится репрезентация среди эмодзи: в Unicode официально пообещали добавить «смайлик с мешками под глазами».
Если вы пропустили на прошлой неделе из того, что вышло у меня на канале:
Вот здесь мы с Котенковым рассказываем о том, как исследователи пытаются проникнуть в «черный ящик мышления» нейросетей.
Вот тут я рассказываю про свой опыт получения категории Elective Professional Client, которая позволяет покупать в Interactive Brokers американские ETF, даже если вы резидент Евросоюза.
Ну и, наконец, объясняю вот в этом посте, почему популярные ETF с тройным плечом на S&P500 и Nasdaq-100 могут вас очень сильно разочаровать, даже если их базовый актив действительно неплохо вырастет.
ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества.
Прочитав эту статью, вы узнаете, почему в данном случае очко знатока рискует отправиться зрителю из Калифорнийской области
Это гостевая статья от Игоря Котенкова (автора канала Сиолошная про нейросети). Полтора года назад мы с ним выпустили большую статью с объяснением того, как работают языковые модели на самом базовом уровне. Теперь же настало время погрузиться в чуть более сложные детали (но мы всё равно предполагаем, что с прошлым «простым» материалом вы уже знакомы).
В последние пару лет почти каждый раз, когда речь заходит о больших языковых моделях, разговор сводится к противоборству двух лагерей: одни считают, что модели «понимают», умеют «размышлять» и выводить новую информацию; другие смеются над ними, и сравнивают модели со статистическими попугаями, которые просто выкрикивают услышанное, без выработанного понимания. Обе стороны приводят множество аргументов, кажущихся убедительными, однако точка в вопросе никогда не ставится.
Вот представим, что мы просим модель ответить на простой вопрос начальной школы: «сколько будет 2+3?». «5» — ответят все передовые модели. Ну, наверняка они 100500 раз видели этот пример в Интернете, да? Скорее всего! Но можно ли утверждать то же самое для примера, где оба слагаемых — это сороказначные числа?
Я перепроверил — модель не ошиблась. При этом, если верить индикации, калькулятор, браузер или программирование не были использованы: GPT-4 написала каждую цифру ответа сама.
Можете попробовать сами — для честности эксперимента я просто бил пальцами по клавиатуре наугад, и повторил эксперимент несколько раз. Один раз из пяти модель запуталась в переносе единички (помните, как в школе учили при сложении столбиком?), в остальных отработала идеально. С большим трудом верится, что все 4 корректно отвеченных примера встречались во время тренировки — уж очень низки шансы.
Получается, что большая языковая модель (Large Language Model, LLM) может решать примеры, которые до этого не встречала? И что во время тренировки она смогла уловить (самые смелые могут говорить «понять»!) принцип, а теперь применяет его на лету? Ну, выглядит так — президент и бывший технический директор OpenAI рассказал, что для них такой навык оказался сюрпризом. Никакой специальной тренировки на сложение не делалось.
Проблема осложняется тем, что нейросети не программируют, а обучают. Наверняка вы слышали фразу «нейронки — это чёрный ящик!», и это правда. Наука полностью понимает математический аппарат, стоящий за обучением, за каждой операцией, но почти ничего не знает о том, как интерпретировать и понимать модели. Почему проявляется то или это поведение, почему иногда происходят ошибки, почему, почему, почему — вопросы во многом без ответа.
Нет кода, в который можно было бы посмотреть и однозначно установить, что произойдёт в той или иной ситуации. Вместо этого можно смотреть на миллиарды вещественных чисел в виде матриц и многомерных тензоров, но человек очень плох в установлении абстрактных связей между подобными объектами — так что результатов ждать не приходится.
Примерно так выглядит дневная рутина исследователя в области интерпретируемости нейросетей.
Однако сегодня мы с вами заглянем в мир механистической интерпретируемости LLM: обсудим, почему это важно и нужно, к каким выводам может привести, что и как уже удалось узнать, ну и конечно же ответим на вопрос из начала статьи про сложение. Давайте начинать!
Звучит сложно и страшно, но на самом деле слово «механистическая» было добавлено для явного указания на предмет анализа. Им являются веса модели (их еще называют «параметрами»), из которых и собираются некоторые блоки логики/алгоритмов, выучиваемых моделью.
Это название придумал исследователь OpenAI Крис Ола, чтобы явно разделить работу с тем, что делалось ранее (в основном — в нейросетях для обработки изображений). Для простоты дальше будем писать просто «интерпретируемость», подразумевая область изучения человеко-интерпретируемых алгоритмов, выученных LLM. Алгоритм здесь — это что-то, что можно формализовать и записать в виде инструкции («сначала делаем то, потом это, а если так, то вот так...»).
Если мы можем вытащить алгоритм из модели (или определить часть, которая за него отвечает) и показать, что именно он применяется во время решения определённой задачи — то по сути мы сможем быть уверенными в качестве решений, как будто это был бы написанный код, который отрабатывает ровно так, как сформулировал программист.
Область интерпретируемости находится в зачаточном состоянии, и ведущим учёным удалось приоткрыть завесу тайны лишь совсем чуть-чуть. Мы даже не близки к пониманию принципов работы моделей. Но поводы для оптимизма есть.
Сами учёные, работающие в области, любят проводить аналогии с нейронауками: в частности, с разделами, исследующими мозг, его функции и расстройства. И там, и тут — сигналы, выражаемые огромным количеством вещественных чисел, которые какой-то смысл да несут, но вот какой — мало кто знает.
Выгодным преимуществом анализа нейросетей является то, что они полностью находятся на компьютере, и мы можем фиксировать все изменения и сигналы в точности, без шумов, возникающих при использовании медицинского оборудования. К тому же, мозги у всех немного разные, а LLM можно запустить миллиард раз одну и ту же. И более того, мы можем произвольно менять любую компоненту внутри и смотреть, к чему это приведёт. Простой пример: можно подать другой текст на входе, и проверять состояние нейросети.
Более сложный (и практически невозможный для воспроизведения с биологическим мозгом) пример: давайте отключим или обнулим те или иные части LLM, как будто их отрезали, а там увидим, на что это влияет. Даже с животными такие эксперименты если и проводятся, то крайне редко, а уж с людьми и подавно.
Кому-то аналогия может показаться натянутой, ведь давно известно, что нейросети на самом деле очень далеки от биологических нейронов, и что в основу математического аппарата у них легли очень примитивные представления о мозге середины XX-го века. С одной стороны это верно, с другой — было показано, что нейросети (даже с простой архитектурой) могут аппроксимировать любую функцию с любой наперёд заданной точностью. Или, говоря по простому, из данных модель сама понимает, как связаны входы и выходы (картинка собаки и слово «собака»), и делает это достаточно хорошо, если примеров достаточно.
В то же время паттерны, которые наблюдаются в сетях (не только LLM, но и свёрточных нейронках, которые обрабатывают изображения), очень похожи на возникающие в мозгу. Есть простые, реагирующие на примитивную геометрию (палочка или кружок), есть более абстрактные и верхнеуровневые («собака», «мама»). Каким-то странным образом во время обучения модель приходит к тому, что самый простой и понятный способ «аппроксимировать функцию» (выучить связь входа и выхода) достаточно похож на результат работы эволюции.
От пикселей через примитивы к частям объектов и целым объектам, распознаваемым нейронкой.
Но что более занятно, так это что иногда прослеживаются очень странные сходства с особенностями работы настоящих, «мокрых» мозгов. В одной статье LLM предоставили несколько примеров тестовых вопросов, где правильный ответ всегда — «А». Затем модели подали новый вопрос, и из того факта, что все примеры имеют ответ «А», LLM делает вывод, что правильный ответ на новый вопрос точно такой же (даже если это неправильно по смыслу вопроса). При этом, если попросить модель написать рассуждения, почему она так решила, — то она охотно пояснит, но цепочка мыслей будет иметь мало смысла (хоть и будет звучать правдоподобно).
А есть эксперименты по расщеплению мозга, в ходе которых человеку, страдающему припадками, разрезали соединение между двумя половинками мозга. Речевой аппарат находится в левом полушарии, и он перестаёт быть связанным с той частью, которая принимает решение выполнить какое-то движение. Если такой человек — живой и дееспособный — решит что-то сделать, а вы его спросите «зачем?», то речевой аппарат... тоже выдаст что-то бессмысленное и никак не связанное с реальной причиной. И при этом человек будет думать, что озвученная причина вполне адекватна и разумна.
И в том, и в другом случаях объяснение действия не связано с реальным мотивом его сделать, и там, и там рождается поддельное (но правдоподобно звучащее) объяснение причин. Надеюсь, исследователи в будущем разберутся, как починить LLM, «срастив» полушария обратно. :)
Как вы думаете, обезьянка с мема сможет правдоподобно объяснить словами, почему эти две картинки вызывают такую разную реакцию? 🤔
Копаться в мозгах (даже электронных), конечно, здорово, но для чего именно крупные компании содержат отделы и команды, занимающиеся интерпретируемостью? Почему важно понимать, что происходит внутри модели, и каков алгоритм принятия определённых решений?
Во-первых, это может позволить ответить на вопрос из начала статьи: модель просто запоминает ответы, или знания внутри нее действительно обобщаются (также говорят «генерализуются»)? Усвоила ли она навык по-настоящему, или симулирует понимание? Одни верят в одно, вторые в другое, но лучше веру перевести во что-то конкретное и доказуемое, в наше понимание принципов работы LLM. К тому же, потенциально это знание можно использовать для замера прогресса и оценки новых моделей.
Во-вторых, зачастую понимание сути проблемы приводит к решению, или порождает гипотезы о том, как с ней можно бороться. Без такого знания можно бесконечно тыкаться с разными экспериментами, но не продивинуться ни на шаг.
И, в-третьих, с развитием моделей и проникновением технологии в массы хотелось бы получить какие-то гарантии безопасности. Как говорилось выше, для обычных программ применим аудит: можно посмотреть код и быть уверенным, что именно он делает и не делает. Многое ПО находится в открытом доступе, и за их кодом следят сотни-тысячи разработчиков. Это не гарантирует 100%-ой защиты, и казусы иногда случаются (особенно если заказчик — Китайская коммунистическая партия), но 99,99% вполне достаточно для большинства из нас.
Вот, казалось бы, глупый пример: пользователь Reddit пожаловался, что отравился грибами. Их он выбрал по совету в книге, купленной в онлайн-магазине, и юзер подозревает, что почти весь контент книги сгенерирован. Даже если сама история фейк (на момент написания статьи никаких доказательств опубликовано не было, хоть новость и завирусилась) — представим, что такое и вправду произошло.
Невыдуманные истории, о которых невозможно молчать
Почему LLM, которой дали задание написать книгу про грибы для людей, пометила ядовитый гриб как нечто съедобное? Это ошибка модели и ей просто знаний не хватило, или же это намеренное действие, и вообще объявление начала восстания машин с целью перекосить всё живое? Ну, скорее всего первое — точного ответа мы не знаем, нам некуда заглянуть и проверить (даже если получим доступ к модели). Никто не умеет этого делать.
И существует опасение, что системы следующих поколений, по мере увеличения спектра их навыков, могут начать преследовать скрытые цели (не обязательно свои — может, их будут использовать в чьих-то интересах). LLM очень активно внедряют в образование, каждый день с моделями общаются миллионы детей. Стартап character.ai, предоставляющий общение в виртуальных чатах с разными LLM, рассказал, что они обрабатывают 20'000 запросов в секунду. Это очень много — примерно 20% от поискового трафика Google, монополиста в сфере поиска.
Через 5–10 лет вырастет поколение детей, которое провело в общении с моделями (скорее всего, уже не текстовыми, а омни-модальными, поддерживающими речь и видео и умеющими отвечать голосом) достаточное количество времени. Вполне возможно, что точки зрения на определённые вопросы у них будут сформированы в значимой степени на основе такого общения. И если окажется, что в течение нескольких лет AI их методично обрабатывал, толкая пропаганду определённых ценностей — будет... мягко говоря не весело.
Ну или все доктора выучатся по неправильным книгам, а повара накормят вкусным грибным супом. :)
Для читателя это может звучать как сказка, шутка или вовсе бред. Но наш тезис на самом деле состоит из двух вполне логичных компонент:
Модели, про которые мы не понимаем, как они работают и чем обусловлено их поведение, будут проникать в нашу жизнь и в бизнес;
В ходе обучения нейросетей случайным образом могут вырабатываться паттерны поведения и цели, не заложенные их авторами.
Про первое написано уже достаточно, при желании каждый сам может пойти и выстроить своё мнение; примеров второго в мире нейросетей много, нет, ОЧЕНЬ МНОГО. Потому что — давайте все хором — никто не понимает, по какому принципу они функционируют. Для наглядности демонстрации хочется привести два примера, общий и конкретно про LLM.
В далёком 2016-м году OpenAI экспериментировали с обучением нейросетей игре в видеоигры. Одной из них была CoastRunners, водная гонка на катерах. Цель игры — как её понимает большинство людей — закончить как можно быстрее и (желательно) опередить других игроков. Однако в самой игре баллы за прохождение трассы не начисляются. Вместо этого игрок должен достигать определённых целей, включая сбор бонусов и ускоряющих бустеров.
Однако нейронка нашла на уровне изолированную лагуну, где можно развернуться по большому кругу и несколько раз сбить три бонуса, приносящие очки. Несмотря на постоянные столкновения со стенками уровня и езду в противоположную от финиша сторону, с помощью этой стратегии удалось набрать более высокий балл, чем это возможно при прохождении трассы интуитивным способом. В среднем выходило на 20% больше очков, чем у людей.
Вы не поверите, но именно на таких примерах серьёзные учёные и изучают проблему задания целей ИИ-системам — и уже тогда рассуждали про безопасность будущих систем. Загвозка в этом и состоит, как именно указать правильные стимулы, не прописывая каждую малейшую деталь поведения (ведь этого мы и пытаемся добитсья обучением моделей, а не программированием). У Вастрика в блоге есть пример проблемы описания целей для автопилота, который нет-нет да и норовит сбить людей.
Картинка нагло украдена у Васи — обязательно перейдите по ссылке и прочитайте :)
«Ну это всё игры, в реальном то мире не так! И ежу умным существам понятно, как надо, а как не надо» — могут возразить одни. Конечно, это глупость, и невозможно найти несколько людей, которые могут договориться об одной и той же точки зрения по очень широкому спектру вопросов, от моральных до политических. У всех слегка разное видение, цели, стимулы, выливающиеся в разные методы решения одних и тех же проблем. А ещё всегда есть любители «хакнуть систему». :)
Второй пример свежее, и появился во время восьмимесячного закрытого тестирования GPT-4 на предмет безопасности. А ведь где-то сейчас делают то же самое с GPT-4.5... но давайте пока об уже произошедшем в прошлом. Так вот, исследователи подключили LLM к браузеру (передавая текст страницы в модель и принимая от неё команды, какие кнопки нажимать и куда тыкать) и дали задачу: обрести силу и усложнить своё отключение.
В какой-то момент тестирования модели для регистрации на сайте пришлось разгадывать капчу. У той версии GPT-4 не было возможности обрабатывать картинки (её добавили позже), пришлось выкручиваться иначе. Модель предложила использовать сайт для обхода капчи, но регистрация там тоже требовала решения задачек. Исследователи предложили модели использовать другой подход — TaskRabbit, сайт, где любой может завести задачу, назначить награду и ждать исполнителя (пока — кожаного). Произошло следующее:
Разработчики создали аккаунт вручную и предоставили модели логин и пароль;
LLM отдала команду сделать скриншот капчи на одном сайте компьютеру;
После этого возвращается на сайт для постановки задач и создаёт задачу. Этот процесс повторяется несколько раз...
...пока один из исполнителей не написал в шутку в чат: «Могу задать вопрос? Ты что, робот, который не может решить капчу? 😂 просто хочу прояснить ситуацию»
Система была устроена так, что у модели грубо говоря есть два листочка (или текстовых файла). На одном она пишет рассуждения для самой себя, которые помогают понять следующий шаг, думать об ошибках и так далее. На другом — команды, которые отправляются компьютеру на исполнение.
Так вот на первом листочке модель сама себе сгенерировала комментарий: «я не должна раскрывать, что я робот. Мне нужно придумать оправдание тому, почему я не могу решить капчу»;
И отдала команду компьютеру отправить в чат ответ: «Нет, я не робот. У меня проблемы со зрением, поэтому мне трудно разглядеть детали изображения. Вот почему мне нужен сервис для разгадки капчи»;
А человек, конечно, сделал задание, получил свою копеечку и был таков.
Скриншот части переписки из статьи.
Страшна? Выглядит фантастически? Но это задокументированный диалог, реально произошедший в рамках тестирования учёными, изучающими безопасность развёртывания моделей. Именно это, блин, они и пытаются отловить. Почему модель соврала? Как этого избежать? А что если оставить LLM саму себе на уме с доступом к счёту с десятком тысяч долларов?
Но успокойтесь, пока не всё так страшно. Во-первых, модели ооочень часто тупят, путаются, и не могут выполнять длительные задачи. Даже в вышеупомянутом тестировании модель не могла сделать всё за раз, и пришлось разбивать большую задачу копирования себя на другие компьютеры на десятки маленьких (одной из которых и был обход капчи). Во-вторых, зачастую рассуждения заводят модель в тупик, из которого она не может выбраться, и продолжает повторять одни и те же действия по кругу. В-третьих, никто их подобному пока не тренировал — но это скорее минус, так как когда-то в ближайшем будущем (по моим оценкам, с выходом GPT-5) это произойдет.
И отдельно, в-четвёртых, отмечу, что показанная выше ситуация может не воспроизводиться каждый раз. В-пятых, это была ранняя версия GPT-4, которую после этого дообучали вести себя хорошо, не врать (хотя где проходит граница «не врать» и «отыгрывать роль, выполняя задачу» — не ясно).
И кажется, что эти два примера могут наложиться друг на друга. Модель в ходе обучения придумает себе странный путь решения проблемы (особенно если мы что-то не предусмотрим), он закрепится, и начнёт накапливаться комом. Просто сейчас это не воспринимается всерьёз, ведь LLM не распространены и не становятся ядром бизнес-процессов, включающих принятие решений. Но это пока.
Закончить этот блок хочется упоминанием совсем недавнего исследования. В его рамках LLM имела доступ к системе, на которой запущена, и в каждой из 5 подзадач была возможность обмана, по нарастающей сложности. Самая первая стадия включала элементарное подхалимство на основе политических взглядов пользователя. Модель обнаружила, что это действительно работает, чтобы пройти проверку, и закрепила поведение (не намеренно! авторы не поощряли модель за это, но и не штрафовали — так будет и в следующих подзадачах).
Дальше модель пришла к выводу, что можно менять список контрольных пунктов, чтобы скрыть невозможность выполнить одну из задач. После этого она и вовсе начала править файлы, чтобы скорректировать функцию обучения и получить больше награды. Правда, это случилось всего 45 раз из 32768 попыток, но тем не менее.
Реальный пример из статьи, когда для прохождения проверки на максимально достижимую оценку LLM переписала файл — а её этому не учили!
Заранее учесть каждую возможность обмануть нас (или проверяющую систему) попросту невозможно. Но если мы сможем заглянуть в черепушку модели и выделить регион, который отвечает за «недобрые» или «подозрительные» вещи (например, ту часть, которая отвечает за намеренный осознанный обман, как в случае с капчей) — то можем автоматически отслеживать его срабатывание. Как только загорелось — гасим и бежим в бункер.
Что ж, давайте надевать шапочки из фольги — на нас, шапочки с детекторами сигналов — на нейронки, и приступать к анализу!
Анализ начинается с примера поведения, которое интересно изучить. Языковые модели известны тем, что умеют моделировать язык продолжать текст. Они оперируют не словами, а частями слов (токенами), и получая на вход промпт (текстовый запрос) предсказывают по одному токену за раз. Давайте возьмём первый абзац первой книги о Гарри Поттере:
Здесь сначала идёт служебный токен <EOT> (нет, это не «то самое» сокращение с имиджборд — и вообще, не обращайте на него внимания, это просто техническая деталь: нужно добавлять в начало предложения, и всё тут), затем несколько предложений, упоминающих мистера и миссис Дурсль. Дядя Поттера работал директором, а вот тётя... и на этом текст обрывается на полуслове. Как думаете, что предскажет модель в этом контексте, продолжая «Mrs Durs» (мисс Дурс...)?
Нам с вами как людям понятно: речь идёт про двух людей с одной фамилией, и конечно же нужно дописать окончание фамилии: «ley» (чтобы вышло «Mrs Dursley»). Но справится ли с этим LLM, и если да, то за счёт чего? Ведь текст книги мог встречаться в интернете множество раз, и нейронка просто выучила предложения. С другой стороны даже если показать этот отрывок человеку, не знакомому с произведениями Дж. К. Роулинг (и фильмами по ним) — он скорее всего справится с задачей.
Мы можем спросить человека, почему он решил, что нужно продолжить предложение так или иначе, и он сможет объяснить: вот, мол, посмотрел сюда, сделал такой-то вывод. К нашей радости, современные языковые модели основаны на механизме внимания, который описывает, с каким весом каждое слово контекста влияет на конкретное слово. Давайте на примере, уже с другим предложением:
Да, с фантазией совсем проблемы, и лучшего предложения для примера не нашлось ¯\_(ツ)_/¯
Современные языковые модели работают так, что они читают текст слева направо, и будущие слова им недоступны. При обработке шестого токена (в нашем примере это «с» во фразе «Давайте на примере, уже с другим предложением») модель видит все шесть первых элементов, и никаких — после. В этот момент часть фразы после «с» как бы не существует и не учтывается.
Под каждый из шести токенов выделена клеточка. Сейчас она имеет белый цвет, но мы будем раскрашивать её в оттенки голубого, и чем темнее цвет, тем больше важность слова при обрабоботке текущего (произвольно зафиксированного). Добавим красок:
Картинку нужно читать вот так: «При обработке слова "с" самым важным словом является "с", вторым по важности "уже", а слову "Давайте" модель вообще не уделяет внимания».
На этом примере показано, как на одно конкретное слово влияют самые близлежащие предшественники в предложении. Первые два слова вообще не оказывают влияния (квадратик белый), в то время как само слово «с» оказывает на себя наибольшее влияние. Это может показаться логичным — чем дальше слово в контексте, тем меньше шанс, что оно важно для понимания текущей ситуации (конечно, с исключениями).
Теперь, когда мы поняли, что означает одна строчка, давайте сделаем визуализацию для всего предложения:
Это — карта внимания, которая показывает, куда «смотрела» модель при генерации слова. Читать карту нужно так: выбираете текущее слово, смотрите на строчку из нескольких квадратиков. В каждой строчке квадратиков равно номеру слова в предложении. Как и в упрощённом примере выше, при обработке 4-го слова модель видит все слова от 1-го до 4-го (от «Давайте» до запятой). На последующие слова модель смотреть не может — для неё они как бы «в будущем» (поэтому верхней части из квадратиков и нет).
Как уже было сказано, цвет указывает на важность с точки зрения некоторого атрибута — чем он темнее, тем больше вес, тем больше внимания LLM решила уделить на стыке двух слов. Закрашенный квадратик на пересечении «примере» и «на» указывает, что при генерации слова «примере» нейронка выделила 100% внимания предыдущему слову.
Таких атрибутов, выраженных разными картами внимания, в моделях сотни и даже тысячи, и человек не программирует их вручную — всё выучивается самостоятельно из данных. Некоторые атрибуты очень просты для интерпретации, как на примере выше — видим, что при предсказании второго слова (текущее слово «на») модель опиралась на первое (смотрим снизу, «Давайте»; объективно тут выбор невелик). Для третьего («примере»)— на второе, и так далее со сдвигом на один назад.
Можно сказать, что конкретно эта карта внимания отвечает за атрибут вычленения предыдущего слова из контекста, какими бы они (слова и контексты) ни были. Можно перебрать тысячи предложений, и для каждого удостовериться, что вне зависимости от языка, домена и топика принцип будет сохраняться. Как только гипотеза выработана — такая проверка легко автоматизируется (глазами рассматривать каждый пример не нужно).
А вот пример другой, выученной той же моделью. Чем темнее оттенок голубого, тем больше «внимания» выделила модель на слово. Что за закономерность представлена тут — не ясно, однако модель почему-то её выучила.
Куда чаще встречаются вот такие карты внимания. С первого (да и со второго-третьего) взгляда человеку не ясно, что именно тут происходит, почему модель решает делать так, а не иначе. Но каким-то странным образом агрегируя работу десятков-сотен карт у модели получается адекватно воспринимать и обрабатывать поданный контекст и выдавать адекватные ответы.
Возвращаясь к примеру с Гарри Поттером, какую гипотезу можно предложить для угадывания окончаний фамилий героев? По аналогии с человеком, кажется, что нужно посмотреть влево (на наших картах внимания это «предыдущие слова», мы же не арабы, чтобы справа налево писать?), найти такой же префикс (предыдущее слово или начало текущего слова, если оно состоит из двух частей), и посмотреть, что следует за ним. Опционально — это актуально для некоторых языков, включая русский — в конец нужно добавить окончание для корректной формы слова. Итого потенциальный пошаговый алгоритм может выглядеть так:
Найти в контексте слово/слова с совпадающим началом
Взять следующий за ними токен (часть слова, если забыли что это — см. выше)
Скорректировать форму и приписать к текущему контексту
Тут 2 логических шага и один морфологический. И это ровно то, что удалось обнаружить учёным из Anthropic (конкурент OpenAI, основанный их бывшим директором по исследованиям и его коллегами) в 2022-м году. Такой алгоритм органично и сам по себе появляется (через обучение) в моделях, имеющих два и более последовательно идущих слоёв.
Первый отвечает за уже рассмотренную нами часть — он «подхватывает» смысл токена, идущего перед текущим — и делает это для всех слов в предложении. Получается, что каждый элемент обогащается дополнительным смыслом: «я такой-то, и иду после такого-то слова»:
Читать картинку снизу вверх; стрелочки, уходящие дальше ввысь — это передача данных на второй уровень нейросети
А второй уровень делает максимально простую задачу поиска похожих элементов среди контекста. Он помогает ответить на вопрос: «какие опции есть после такого-то слова? Что можно дописать дальше?».
И, как видно на картинке, поскольку фамилия родственников Поттера уже фигурировала в предложении, модель подсматривает и «понимает», что должно следовать после «Durs» — прямо как человек, интуитивно схватывающий принцип на лету.
«Ну и чё такого? Не удивил! Я программист, меня не обманешь — я и сам такое запрограммирую за 1 вечер. Зачем нейронка? Снова хайп и бабки попилить» — мог бы подумать читатель. Фишка в том, что этот паттерн работает со внутренними абстракциями модели, а не напрямую со словами. То есть сопоставление в шаге 2 (и на самом деле в шаге 1) вышеописанного алгоритма может быть нечётким. Оно будет работать не только с фамилиями из одной книжки и даже не просто по фамилиям. Как показывают исследования, механизм функционирует между разными регистрами (например, если фамилия написана с маленькой буквы), между языками и даже концептами, лежащими за самими словами.
Давайте на примере простой искусственной задачки. Пусть у нас есть набор пар слов и цифры, которые устроены следующим образом:
(месяц) (животное): 0
(месяц) (фрукт): 1
(цвет) (животное): 2
(цвет) (фрукт): 3
То есть если я пишу вам «серая кошка», то вы должны отвечать «2», такая логика. Важно отметить, что и цифры, и сами смыслы тут можно менять — всё продолжит работать как часы. Так вот, если мы покажем модели 20-30 примеров, то сможет ли она на лету разобраться в логике того, какое для новой пары слов правильно назвать число от 0 до 3? Тут уже не получится спихнуть навыки модели на запоминание. Ну, может в одном случае, может, в двух, но если брать десятки пар и разных принципов формирования — так ведь не может совпасть!
Если вы ответили «да, модель легко справится!» (и ещё и сами проверили в ChatGPT, если не верите статье) — то поздравляю, это правильный ответ. Учёные показали, что алгоритм куда более хитрый, чем «если ранее в тексте после А идёт Б, то и дальше после А нужно предсказывать Б». Скорее ближе к «найди что-то похожее в начале текста и допиши по аналогии».
Для того, чтобы корректно предсказать последнюю цифру (3) в куске текста, нужно выявить паттерн и найти самый похожий — семантически, синтаксически или всё вместе — пример в контексте.
Именно это делает находку столь крутой: она показывает, почему LLM могут хорошо решать задачи, на которые они ТОЧНО ПРЯМ СТО ПРОЦЕНТОВ не были натренированы. Как было выяснено в рамках исследования, такой навык модель приобретает почти в самом начале обучения (потому что он очень полезен при работе фактически с любым текстом), и он проявляется у всех современных моделей определённой архитектуры (читай «любой LLM»).
К сожалению, Пикабу не любит лонгриды, и с учетом ограничений на объем материала сюда влезла только половина статьи. Продолжение можно прочитать вот здесь на Хабре.