Недавно Google представил свою новейшую языковую модель Gemini, обещая, что она будет анализировать данные лучше, чем когда-либо, с контекстным окном до 1.5 миллионов слов. На пресс-конференциях и демонстрациях Google неоднократно заявляла, что модели могут выполнять ранее невыполнимые задачи благодаря своему «длинному контексту», например, анализ документов объемом в сто и более страниц. Но вот незадача – тщательные тесты различных коллективов ученых показывают, что модели семейства Gemini справляются с заданиями на уровне подбрасывания монетки! Да-да, именно так, случайные шансы оказались не хуже, чем новейший суперкомпьютерный интеллект от Google.
Добро пожаловать в эру Gemini!
Различные коллективы исследователей (Институт Аллена по искусственному интеллекту, Университет Массачусетса в Амхерсте, Калифорнийский университет в Санта-Барбаре) изучали, насколько хорошо модели Gemini от Google и другие извлекают смысл из огромного количества данных, к примеру, книг размером с «Войну и мир». И все пришли к выводу, что Gemini 1.5 Pro и 1.5 Flash с трудом отвечают на вопросы о больших наборах данных правильно; в одной серии тестов на основе документов модели давали правильный ответ только в 40% случаев. При тестировании моделей Gemini на книгах размером около 260 000 слов (~520 страниц), исследователи к своему удивлению обнаружили, что 1.5 Pro правильно ответил на истинные/ложные утверждения в 46,7% случаев, тогда как Flash ответил правильно только в 20% случаев. То есть результаты, которые выдает Gemini, зачастую ничем не лучше, чем если бы мы просто доверились нашему старому доброму методу – подбрасыванию монетки. "Орел или решка?" – вот и весь анализ.
По сложившейся в последнее время традиции Google не стал комментировать полученные результаты, но выпустил целую серию собственных научных статей, которые "убедительно" доказывают, что текущие модели точно превосходят случайное подбрасывание монетки, так как по их оценкам точность модели 1.5 Pro выше 56% на документах с длинным контекстом.
Вице-президент по исследованиям в Google DeepMind Ориол Виньялс, проводивший брифинг, назвал текущую модель Gemini «волшебной» и пообещал, что новая версия Gemini, которая выйдет в конце 2024 точно перебьет результаты случайного подбрасывания монетки на всех возможных наборах данных. Ждем с нетерпением и надеждой на новый прорыв!