ChatGPT-4 перевершив фахових психологів при тестуванні соціального інтелекту.

Нове дослідження, опубліковане в журналі Frontiers in Psychology, порівнює штучний інтелект з психологами в розумінні та реагуванні на людські емоції та потреби під час консультування. У дослідженні розглядалися великі мовні моделі, такі як ChatGPT-4, Google Bard і Bing, і оцінювався їх соціальний інтелект – критично важлива навичка в психотерапії.

ChatGPT-4 перевершив результати всіх психологів, які брали участь у дослідженні, а Bing – більше половини з них. Натомість результати Google Bard були співставні лише з психологами, які здобувають ступінь бакалавра, і суттєво поступалися докторантам.

Великі мовні моделі (ВММ) – це вдосконалені системи штучного інтелекту, розроблені для розуміння та генерування людського тексту шляхом обробки величезних обсягів письмових даних. Ці моделі навчаються на різноманітних інтернет-текстах, щоб вловлювати нюанси мови, контексту і синтаксису.

Завдяки методам, відомим як глибоке навчання, зокрема з використанням структур, що називаються нейронними мережами, ВММ можуть виконувати різноманітні завдання, зокрема відповідати на запитання, перекладати мови, резюмувати довгі статті і навіть брати участь у розмові, яка сприймається напрочуд людською.

Хоча попередні дослідження показали, що ВММ можуть діагностувати і допомагати в лікуванні психічних розладів, існувала прогалина в розумінні того, як саме ці моделі працюють у соціальних контекстах, особливо порівняно з людськими психологами, які вміють орієнтуватися в складних емоційних взаємодіях.

«Використання моделей штучного інтелекту в консультуванні та психотерапії є серйозним викликом для психологів через побоювання, що вони можуть зайняти їхнє місце в цих важливих завданнях, – каже автор дослідження Фахмі Хассан Фадель, доцент кафедри клінічної психології Катарського університету. – Перевага штучного інтелекту в сфері сприйняття і розуміння людських емоцій може означати, що він виявиться більш корисним, ніж людина-психотерапевт, що є досить бентежним питанням».

У дослідженні взяли участь 180 психологів чоловічої статі з Університету короля Халіда в Саудівській Аравії, розділених за освітнім статусом на бакалаврів і докторантів. Для дослідження використовували одні з найсучасніших ВММ: ChatGPT-4 від OpenAI, Google Bard і Microsoft Bing.

Кожному учасникові – як людині, так і штучному інтелекту, – було запропоновано індивідуально відповісти на 64 сценарії, представлені в Шкалі соціального інтелекту. Цю шкалу було обрано тому, що вона добре зарекомендувала себе і пропонує надійне вимірювання соціальних навичок, які є ключовими в психотерапії. Відповіді були зібрані й оцінені відповідно до заздалегідь визначених критеріїв.

Завдання були розроблені для вимірювання двох основних вимірів соціального інтелекту: обґрунтованості суджень про поведінку людини та здатності діяти вирозуміло в соціальних ситуаціях. Обґрунтованість суджень передбачає розуміння соціального досвідчень через спостереження за поведінкою людей, тоді як здатність діяти стосується аналізу соціальних проблем та вибору відповідних рішень.

Результати показали суттєву різницю в результатах різних моделей штучного інтелекту та людських психологів – це свідчить про те, що деякі системи штучного інтелекту досягли такого рівня розвитку, що можуть перевершити людей-професіоналів у певних аспектах соціального інтелекту.

Серед досліджуваних моделей штучного інтелекту найвищий рівень соціального інтелекту продемонстрував ChatGPT-4. Він набрав 59 балів з 64 за шкалою соціального інтелекту, фактично перевершивши результати всіх психологів, які брали участь у дослідженні. Середній показник соціального інтелекту становив 39,19 бала для студентів-бакалаврів і 46,73 бала для докторантів.

Водночас Bing також показав хороші результати, набравши 48 балів з 64. Цей показник свідчить про те, що Bing перевершив 90% студентів бакалаврату і був на одному рівні з половиною докторантів.

На противагу цьому, Google Bard продемонстрував нижчий рівень соціального інтелекту в цьому дослідженні. Він набрав 40 балів з 64, що приблизно відповідає результатам психологів-бакалаврів, але суттєво поступається докторантам.

Отримані результати слугують орієнтиром для подальшого розвитку систем штучного інтелекту, призначених для психотерапії та консультування. Розуміння того, що штучний інтелект може зрівнятися або навіть перевершити людську продуктивність у завданнях соціального інтелекту, створює міцний фундамент для подальшої інтеграції цих технологій у послуги з охорони психічного здоров'я.

«Дослідження надає короткий огляд стрімкого розвитку штучного інтелекту, – сказав Фадель в інтерв'ю PsyPost. – Це яскрава погляд на найближче майбутнє».

Однак дослідження також піднімає важливі питання щодо навчання, розвитку й етичного використання штучного інтелекту в таких делікатних сферах, як психічне здоров'я, де здатність до емпатії й формування терапевтичних стосунків традиційно вважається унікальною людською рисою.

«Можливо, найбільші застереження будуть пов'язані зі здатністю штучного інтелекту в майбутньому розуміти й аналізувати людські почуття і приймати рішення на основі цього, – сказав Фадель. – Ми не знаємо, куди рухаються розробки в цій галузі. На сьогодні, наскільки нам відомо, контроль над розробниками штучного інтелекту все ще на вкрай низькому рівні».