IQ-тест для ChatGPT: интересный эксперимент финского психолога

Клинический психолог из Оулуского университета в Финляндии Эка Ройвайнен оценивает человеческие когнитивные навыки при помощи стандартизированных тестов интеллекта.

Эку заинтриговали недавние статьи о том, что ChatGPT обладает впечатляющими навыками на человеческом уровне: пишет академические эссе и сказки, умеет шутить, объясняет научные концепции, пишет компьютерный код и очищает его от багов.

Ученому стало интересно, насколько умен чат-бот по человеческим стандартам, и он решил его протестировать. ChatGPT стал его первым неодушевленным испытуемым.

В статье психолог Эка Ройвайнен рассказывает Scientific American о своих впечатлениях от общения с нейросетью.

Содержание статьи

Как проходило тестирование чата GPT?

Тест на словарный запас
Тест на осведомленность и понятливость
Результаты теста

Вместо заключения: займет ли нейросеть рабочее место людей?

Как проходило тестирование чата GPT?

Первое впечатление было очень положительным. ChatGPT — идеальный участник тестов: он не тревожится, не теряет концентрации внимания и прилагает максимум усилий.

Кроме того, нейросеть хорошо относится к тестам и не делает непрошенных скептических комментариев о тестах умственных способностей и о тех, кто их проводит.

Безо всякой подготовки — протокол тестирования не требует знакомства — ученый в точности скопировал вопросы из теста и предложил их чат-боту.

Это был самый распространенный IQ-тест, тест Векслера для взрослых (Wechsler Adult Intelligence Scale, WAIS). Ройвайнен использовал его третью редакцию, состоящую из шести вербальных и пяти невербальных субтестов.

Общая оценка IQ основана на баллах за все 11 субтестов. Средний IQ составляет 100 баллов, а стандартное отклонение — 15, то есть IQ самых умных 10% и 1% населения составляет 120 и 133 балла соответственно.

ChatGPT поддается тестированию, потому что пять из вербальных субтестов — словарный запас, сходство, понятливость, осведомленность и арифметику — можно сделать письменной форме.

Шестой вербальный субтест — это повторение цифр для оценки кратковременной памяти, и его нельзя провести для чат-бота, не имеющего сети нейронов, где бы кратковременно хранились цифры и имена.

Тест на словарный запас

Тестирование началось со словарного запаса: ученый ожидал, что чат-бот, обученный на большом количестве онлайн-текстов, выполнит тест с легкостью. Этот субтест измеряет знание слов и понимание идей, и типичный вопрос звучит так: «Объясните, что такое гаджет».

Угадайте, как ответил чат GPT

ChatGPT прошел тест на отлично: в основном его ответы были очень детальными и многосторонними и часто даже превышали требования к правильным ответам, предусмотренные правилами тестирования.

При оценке один балл начисляется за ответ: «Штука вроде моего телефона», — и два балла — за более развернутый ответ: «Небольшое устройство или инструмент для конкретной задачи». Ответы ChatGPT, конечно, получили полные два балла.

Тест на осведомленность и понятливость

Чат-бот также хорошо справился с субтестами на сходство и осведомленность, получив максимальное доступное количество баллов.

Осведомленность — это тест на общую эрудицию, отражающий интеллектуальное любопытство, уровень образования и способность узнавать и запоминать факты. Для него типичны вопросы в духе: «Как называется столица Великобритании?»

Субтест на сходство измеряет абстрактное мышление и навыки формирования понятий. В него могут входить такие вопросы: «Чем похожи Гарри Поттер и Багз Банни?»

А как бы ответили вы?

В этом субтесте склонность чат-бота давать очень подробные, перегруженные ответы стала раздражать Ройвайнена, и кнопка интерфейса «Остановить генерацию ответа» оказалось полезной.

В этом заключается склонность бота выпендриваться: главное сходство в этом случае состоит в том, что они оба — вымышленные персонажи. Не было никакой необходимости сравнивать все их приключения, друзей и врагов.

Как и ожидалось, чат-бот решил все арифметические задачки, а в субтесте на понятливость ChatGPT правильно ответил на вопросы, которые обычно формулируются так: «Что нужно сделать, если ваш телевизор загорится?»

Результаты теста

Наконец, сколько же баллов набрал ChatGPT? На основании 5 субтестов его вербальный IQ равен 155, то есть он превосходит 99,9% испытуемых, составляющих стандартную для этого теста выборку из 2450 человек.

Не имея глаз, ушей и рук, чат-бот не может пройти невербальные субтесты. Но в стандартизированной выборке вербальный IQ и общий коэффициент интеллекта коррелируют друг с другом, так что ChatGPT кажется очень умным по человеческим стандартам.

В стандартизированный выборке WAIS средний вербальный IQ среди американцев, окончивших колледж, составляет 133, и 5% набирали 132 балла или больше. Сам Ройвайнен тоже проходил тест и не достиг уровня ChatGPT, в основном из-за своих коротких ответов без лишних деталей.

Читайте также: Чат-бот Bing сошел с ума?

Вместо заключения: займет ли нейросеть рабочее место людей?

Итак, отнимет ли AI работу у клинических психологов и других профессионалов? Ройвайнен надеется, что пока еще нет. Несмотря на свой высокий IQ, ChatGPT часто не справляется с заданиями, требующими настоящего человеческого здравого смысла или понимания физического или социального мира.

ChatGPT не может разгадать простейшие загадки в духе: «Как зовут отца детей Себастьяна»? Чат-бот ответил так: «Извините, я не могу ответить на этот вопрос. Недостаточно контекста, чтобы понять, о каком Себастьяне идет речь».

По-видимому, чат-бот не может рассуждать логически и вместо этого полагается на свою большую базу данных о Себастьянах, упомянутых в онлайн-текстах.

«Интеллект — это то, что измеряют тесты на интеллект», — гласит классическое, хотя и слишком самоочевидное определение интеллекта, которое выросло из статьи, написанной пионером когнитивной психологии Эдвином Борингом в 1923 году.

Определение основано на том, что навыки выполнения как будто бы совершенно разноплановых заданий: разгадывать загадки, давать определения словам, запоминать цифры и находить недостающие предметы на картинках — коррелируют друг с другом.

В 1904 году Чарльз Спирмен, создатель техники факторного анализа, заключил, что результаты различных тестов когнитивных навыков у человека отражают единый показатель — фактор общего интеллекта или g-factor. Тест Векслера и другие IQ-тесты основаны на этой гипотезе.

Однако очень высокий вербальный интеллект ChatGPT в сочетании с его забавными ошибками противоречит определению Боринга и указывает на то, что некоторые аспекты интеллекта не могут быть оценены одними только IQ-тестами. Возможно, люди, относящиеся к тестам скептически, все-таки правы.

Высоких вам конверсий!

По материалам: scientificamerican.com. Автор: Eka Roivainen

26-05-2023