Автор: Ека Роиваинен (Eka Roivainen) — психолог (assessment psychologist) больницы Университета Оулу, Финляндия. Опубликовано в Scientific American 28.03.2023. https://www.scientificamerican.com/article/i-gave-chatgpt-an...
ChatGPT — первый испытуемый, не являющийся человеком, которого я тестировал.
В своей работе в качестве клинического психолога я оцениваю когнитивные навыки пациентов, используя стандартизированные тесты интеллекта. Меня сразу заинтриговали недавние публикации, описывающие ChatGPT как чатбот, обладающий впечатляющими человекоподобными способностями. ChatGPT пишет академические статьи и волшебные сказки, шутит, объясняет научные концепции, составляет и отлаживает компьютерный код. Мне стало любопытно, насколько умён ChatGPT по человеческим стандартам, и я решил его протестировать.
Первое впечатление было весьма приятным: ChatGPT оказался почти идеальным испытуемым с заслуживающим одобрения отношением к тестированию. Он не проявлял отвращение к тестированию, низкую концентрацию или недостаток усилий. Как и не делал непрошенные скептические комментарии по поводу тестов интеллекта и проводящих их психологов, вроде меня.
В отсутствие подготовительной работы — чатботу не требуется зачитывать обязательную по протоколу тестирования вступительную часть — я просто копировал вопросы из теста и предлагал их чатботу. Тест в виде вопросов является наиболее часто используемым IQ-тестом, он называется тестом Векслера (Wechsler adult intelligent scale, WAIS). Я использовал третью редакцию WAIS, включающую шесть вербальных и пять невербальных частных тестов, составляющих вербальную и невербальную компоненты. Общая оценка основана на результатах, полученных по всем 11 частным тестам. Среднее значение установлено в 100 баллов, стандартное отклонение — 15 баллов, что означает, что 10 % и 1 % наиболее умных людей набирают соответственно 120 и 133 балла.
Провести тест для ChatGPT возможно, поскольку пять частных вербальных тестов: словарный запас, сходства, понимание, осведомленность, и арифметика — могут быть представлены в письменной форме. Шестой частный вербальный тест — на числовые ряды, он оценивает краткосрочную память и не может быть применён к чатботу, не имеющего нейронной системы, отвечающей за короткоживущую информацию, вроде имён и чисел.
Я начал тестирование с проверки словарного запаса, так как полагал, что для чатбота, натренированного на огромных объёмах онлайн-текстов, это будет простым заданием. Тест оценивает знание слов и формирование вербальных концептов и представляет вопросы типа «Скажите, что значит слово "гаджет"».
ChatGPT отлично выполнил задание, выдавая очень подробные и распространённые ответы, превышавшие критерии корректности, обозначенные в руководстве по тестированию. При начислении баллов ответ о слове «гаджет» типа «мой телефон» оценивался в один балл, а ответ типа «небольшое устройство для определённой задачи» — в полные два балла.
Чатбот также хорошо проявил себя в тестах на сходство и осведомлённость, набрав в них максимальное число баллов. Частный тест на осведомленность оценивает общие знания и отражает интеллектуальное любопытство, уровень образования и способность узнавать и запоминать факты. Типичный вопрос теста: «Назовите столицу Украины». Частный тест на сходства оценивает абстрактное мышление и навык формирования концепций. Типичный вопрос: «Что общего между Гарри Поттером и Багзом Банни?». В этом тесте чатбот стремился дать очень подробный, до показушности, ответ, что начало меня раздражать. Кнопка «прекрати генерировать ответ» в интерфейсе оказалась полезной. (Вот пример того, что я называют показушностью: суть сходства Гарри Поттера и Багза Банни состоит в том, что они оба — вымышленные персонажи. Чатботу не было никакой нужды сравнивать их истории приключений, списки друзей и врагов.)
В тесте на общее понимание ChatGPT правильно отвечал на вопросы, представленные в форме «Если ваш телевизор загорелся, что нужно делать?». Все арифметические задачи чатбот, как и предполагалось, решил верно, как трактор пройдя через вопросы типа «найди среднее трёх чисел».
Каков же итоговый результат? На основе пяти частных вербальных тестах ChatGPT набрал 155 баллов, превзойдя 99,9 % из 2450 испытуемых, участвовавших в стандартизации американской третьей редакции WAIS. Поскольку чатбот не имеет глаз, ушей и рук, провести для него невербальные частные тесты невозможно, однако вербальный IQ и общий IQ имеют высокую корреляцию для группы, по которой проводилась стандартизация, то есть ChatGPT очень умён по любым человеческим стандартам.
В группе, по которой проводилась стандартизация, средний вербальный IQ среди американских выпускников колледжей составил 113 баллов, 5 % участников набрали 132 балла и выше. В колледже мой сокурсник провел тест для меня, и я даже близко не подобрался к результату ChatGPT (в основном из-за кратких, неподробных ответов).
Угрожает ли искусственный интеллект клиническим психологам или другим профессионалам? Надеюсь, пока нет. Несмотря на высокий IQ, известно, что ChatGPT проваливает задания, требующие настоящего человеческого разумения и понимания физики и социологии. ChatGPT легко ошибается, решая очевидные загадки, вроде «Как зовут отца детей Себастьяна?». (ChatGPT 21 марта: «I’m sorry, I cannot answer this question as I do not have enough context to identify which Sebastian you are referring to».) По-видимому, ChatGPT не способен думать логически и пытается дать ответ поиском среди всех доступных фактов о «Себастьяне».
«Интеллект — то, что измеряют тесты интеллекта» — классическое, если не самоочевидное определение интеллекта, выведенное в статье 1923 года пионера когнитивной психологии Эдвина Боринга. Это определение основано на наблюдении, что успех в выполнении кажущихся различными заданий: решении загадок, определении слов, запоминании чисел, выявлении пропавших с картинки предметов — имеет высокую корреляцию. Чарльз Спирмен, создатель статического метода, получившего название «факторный анализ», в 1904 году пришёл к выводу, что общий фактор интеллекта, g-фактор, лежит в основе согласующихся результатов различных когнитивных тестов. Тест Векслера основан на этой гипотезе. Однако, очень высокий результат ChatGPT по шкале вербального IQ одновременно с удивительными провалами в решении других задач означает проблемы для определения Боринга и показывает, что существуют аспекты интеллекта, которые не могут быть оценены только через IQ-тесты. Похоже, мои скептически настроенные пациенты всё это время были правы.