Клинический психолог из Оулуского университета в Финляндии Эка Ройвайнен оценивает человеческие когнитивные навыки при помощи стандартизированных тестов интеллекта.
Эку заинтриговали недавние статьи о том, что ChatGPT обладает впечатляющими навыками на человеческом уровне: пишет академические эссе и сказки, умеет шутить, объясняет научные концепции, пишет компьютерный код и очищает его от багов.
Ученому стало интересно, насколько умен чат-бот по человеческим стандартам, и он решил его протестировать. ChatGPT стал его первым неодушевленным испытуемым.
В статье психолог Эка Ройвайнен рассказывает Scientific American о своих впечатлениях от общения с нейросетью.
Содержание статьи
Как проходило тестирование чата GPT?
Тест на словарный запас
Тест на осведомленность и понятливость
Результаты теста
Вместо заключения: займет ли нейросеть рабочее место людей?
Как проходило тестирование чата GPT?
Первое впечатление было очень положительным. ChatGPT — идеальный участник тестов: он не тревожится, не теряет концентрации внимания и прилагает максимум усилий.
Кроме того, нейросеть хорошо относится к тестам и не делает непрошенных скептических комментариев о тестах умственных способностей и о тех, кто их проводит.
Безо всякой подготовки — протокол тестирования не требует знакомства — ученый в точности скопировал вопросы из теста и предложил их чат-боту.
Это был самый распространенный IQ-тест, тест Векслера для взрослых (Wechsler Adult Intelligence Scale, WAIS). Ройвайнен использовал его третью редакцию, состоящую из шести вербальных и пяти невербальных субтестов.
Общая оценка IQ основана на баллах за все 11 субтестов. Средний IQ составляет 100 баллов, а стандартное отклонение — 15, то есть IQ самых умных 10% и 1% населения составляет 120 и 133 балла соответственно.
ChatGPT поддается тестированию, потому что пять из вербальных субтестов — словарный запас, сходство, понятливость, осведомленность и арифметику — можно сделать письменной форме.
Шестой вербальный субтест — это повторение цифр для оценки кратковременной памяти, и его нельзя провести для чат-бота, не имеющего сети нейронов, где бы кратковременно хранились цифры и имена.
Тест на словарный запас
Тестирование началось со словарного запаса: ученый ожидал, что чат-бот, обученный на большом количестве онлайн-текстов, выполнит тест с легкостью. Этот субтест измеряет знание слов и понимание идей, и типичный вопрос звучит так: «Объясните, что такое гаджет».
Угадайте, как ответил чат GPT
ChatGPT прошел тест на отлично: в основном его ответы были очень детальными и многосторонними и часто даже превышали требования к правильным ответам, предусмотренные правилами тестирования.
При оценке один балл начисляется за ответ: «Штука вроде моего телефона», — и два балла — за более развернутый ответ: «Небольшое устройство или инструмент для конкретной задачи». Ответы ChatGPT, конечно, получили полные два балла.
Тест на осведомленность и понятливость
Чат-бот также хорошо справился с субтестами на сходство и осведомленность, получив максимальное доступное количество баллов.
Осведомленность — это тест на общую эрудицию, отражающий интеллектуальное любопытство, уровень образования и способность узнавать и запоминать факты. Для него типичны вопросы в духе: «Как называется столица Великобритании?»
Субтест на сходство измеряет абстрактное мышление и навыки формирования понятий. В него могут входить такие вопросы: «Чем похожи Гарри Поттер и Багз Банни?»
А как бы ответили вы?
В этом субтесте склонность чат-бота давать очень подробные, перегруженные ответы стала раздражать Ройвайнена, и кнопка интерфейса «Остановить генерацию ответа» оказалось полезной.
В этом заключается склонность бота выпендриваться: главное сходство в этом случае состоит в том, что они оба — вымышленные персонажи. Не было никакой необходимости сравнивать все их приключения, друзей и врагов.
Как и ожидалось, чат-бот решил все арифметические задачки, а в субтесте на понятливость ChatGPT правильно ответил на вопросы, которые обычно формулируются так: «Что нужно сделать, если ваш телевизор загорится?»
Результаты теста
Наконец, сколько же баллов набрал ChatGPT? На основании 5 субтестов его вербальный IQ равен 155, то есть он превосходит 99,9% испытуемых, составляющих стандартную для этого теста выборку из 2450 человек.
Не имея глаз, ушей и рук, чат-бот не может пройти невербальные субтесты. Но в стандартизированной выборке вербальный IQ и общий коэффициент интеллекта коррелируют друг с другом, так что ChatGPT кажется очень умным по человеческим стандартам.
В стандартизированный выборке WAIS средний вербальный IQ среди американцев, окончивших колледж, составляет 133, и 5% набирали 132 балла или больше. Сам Ройвайнен тоже проходил тест и не достиг уровня ChatGPT, в основном из-за своих коротких ответов без лишних деталей.
Вместо заключения: займет ли нейросеть рабочее место людей?
Итак, отнимет ли AI работу у клинических психологов и других профессионалов? Ройвайнен надеется, что пока еще нет. Несмотря на свой высокий IQ, ChatGPT часто не справляется с заданиями, требующими настоящего человеческого здравого смысла или понимания физического или социального мира.
ChatGPT не может разгадать простейшие загадки в духе: «Как зовут отца детей Себастьяна»? Чат-бот ответил так: «Извините, я не могу ответить на этот вопрос. Недостаточно контекста, чтобы понять, о каком Себастьяне идет речь».
По-видимому, чат-бот не может рассуждать логически и вместо этого полагается на свою большую базу данных о Себастьянах, упомянутых в онлайн-текстах.
«Интеллект — это то, что измеряют тесты на интеллект», — гласит классическое, хотя и слишком самоочевидное определение интеллекта, которое выросло из статьи, написанной пионером когнитивной психологии Эдвином Борингом в 1923 году.
Определение основано на том, что навыки выполнения как будто бы совершенно разноплановых заданий: разгадывать загадки, давать определения словам, запоминать цифры и находить недостающие предметы на картинках — коррелируют друг с другом.
В 1904 году Чарльз Спирмен, создатель техники факторного анализа, заключил, что результаты различных тестов когнитивных навыков у человека отражают единый показатель — фактор общего интеллекта или g-factor. Тест Векслера и другие IQ-тесты основаны на этой гипотезе.
Однако очень высокий вербальный интеллект ChatGPT в сочетании с его забавными ошибками противоречит определению Боринга и указывает на то, что некоторые аспекты интеллекта не могут быть оценены одними только IQ-тестами. Возможно, люди, относящиеся к тестам скептически, все-таки правы.
Высоких вам конверсий!
По материалам: scientificamerican.com. Автор: Eka Roivainen