Google AI має кращий лікарський такт і ставить кращі діагнози, ніж лікарі.

Система штучного інтелекту, навчена проводити медичні інтерв'ю, відповідала рівню лікарів-людей або навіть перевершувала їхні показники у спілкуванні з симульованими пацієнтами та визначенні можливих діагнозів на основі історії хвороб пацієнтів, пише Nature.

Чат-бот Articulate Medical Intelligence Explorer, який базується на великій мовній моделі (ВММ), розробленій компанією Google, виявився точнішим за сертифікованих лікарів первинної медичної допомоги в діагностиці, зокрема, респіраторних і сердцево-судинних захворювань. Порівняно з лікарями-людьми, він зміг отримати аналогічний обсяг інформації під час медичних інтерв'ю та посів вище місце за рівнем емпатії.

"Наскільки нам відомо, це перший випадок, коли розмовна система штучного інтелекту була оптимально розроблена для діагностичного діалогу та збору анамнезу", – каже Алан Картікесалінгам, науковий співробітник клінічних досліджень Google Health у Лондоні та співавтор дослідження, яке було опубліковане в репозиторії препринтів arXiv.

Дослідники кажуть, що з часом їхня система штучного інтелекту може допомогти демократизувати медицину.

Але наразі до оголошеного висліду конкуренції штучного а людського інтелекту є кілька застережень. Чат-бот не тестували на людях з реальними проблемами зі здоров'ям – лише на акторах, навчених зображати людей з медичними захворюваннями. Крім того, спілкування з ними відбувалися в текстовій формі – незвичній для лікарів, але ідеальній для мовних моделей штучного інтелекту.

Хоча, з іншого боку, в дослідженні є й виразні атути. Мало хто з тих, хто намагається використати ВММ у медицині, досліджував, чи можуть системи імітувати здатність лікаря збирати історію хвороби людини і використовувати її для постановки діагнозу – а це дуже важлива риса лікарського вміння.

Однією з проблем, з якою зіткнулися розробники, була нестача реальних медичних розмов, які можна було би використовувати як навчальні дані. Щоб розв'язати цю проблему, дослідники розробили спосіб навчання чат-бота на власних "розмовах". Дослідники провели початковий раунд точного налаштування базової ВММ за допомогою наявних наборів реальних даних, таких як електронні медичні картки та транскрибовані медичні розмови. Для подальшого навчання моделі дослідники запропонували ВММ зіграти роль людини з певним захворюванням, а також роль емпатичного лікаря, який прагне зрозуміти історію хвороби людини і встановити потенційні діагнози. Команда також попросила модель зіграти ще одну роль: критика, який оцінює взаємодію лікаря з пацієнтом і надає зворотний зв'язок про те, як покращити цю взаємодію. Ця критика використовується для подальшого навчання ВММ і генерування покращених діалогів.

Щоби протестувати систему, дослідники залучили 20 осіб, які були навчені зображати пацієнтів, і попросили їх провести текстові онлайн-консультації – як з AMIE, так і з 20 сертифікованими лікарями. Їм не повідомляли, з ким вони спілкуються, – з людиною чи ботом. Актори змоделювали 149 клінічних сценаріїв, а потім їх попросили оцінити свій досвід. Група фахівців також оцінювала роботу AMIE та лікарів.

Система штучного інтелекту відповідала або перевершувала точність діагностики лікарів у всіх шести досліджуваних медичних спеціальностях. Бот перевершив лікарів у 24 з 26 критеріїв якості розмови, включаючи ввічливість, пояснення стану та методів лікування, щирість, а також вираження турботи та відданості.

"Це жодним чином не означає, що мовна модель краще за лікарів збирає клінічну історію", – каже Картікесалінгам. Він, власне, зазначив, що лікарі первинної ланки, які брали участь у дослідженні, ймовірно, не звикли взаємодіяти з пацієнтами за допомогою текстового чату, що могло вплинути на їхню ефективність. Натомість, за словами Картікесалінґама, ВММ має апріорну перевагу в тому, що може швидко складати довгі й гарно структуровані відповіді, що дозволяє йому бути постійно тактовним, не втомлюючись.

Важливим наступним кроком дослідження буде проведення більш детальних досліджень, щоб оцінити потенційні упередження й переконатися, що система є об'єктивною для різних груп населення. Команда Google також починає вивчати етичні вимоги до тестування системи на людях, які мають реальні медичні проблеми. Важливим аспектом є також конфіденційність користувачів чат-ботів, стосовно багатьох комерційних платформ з великими мовними моделями досі невідомо, де зберігаються дані і як вони аналізуються.