Исследование: пользователи ИИ распознают заболевания менее чем в 34,5% случаев
В рандомизированном исследовании приняли участие 1 298 человек. Участникам предлагалось по описанию симптомов определить возможные заболевания и решить, какие действия следует предпринять – от самопомощи до обращения за срочной медицинской помощью. Некоторые участники использовали чат-интерфейс с одной из LLM: GPT-4o компании OpenAI, Llama 3 компании Meta* или Command R+ компании Cohere, а участники контрольной группы искали информацию привычными способами, например, через интернет.
Как показали результаты, помимо того, что лишь чуть больше трети участников смогли корректно определить возможные причины симптомов, пользователи, консультировавшиеся с ИИ, выбирали правильную тактику обращения за медицинской помощью менее чем в 44,2% случаев. Показатели практически не отличались от результатов участников контрольной группы. Подобные проблемы фиксируются и в других исследованиях медицинских ИИ-сервисов, например, ученые из Медицинской школы Икана при Маунт-Синай (США) установили, что функция ChatGPT Health в 51,6% случаев не рекомендовала срочно обращаться за медицинской помощью пациентам, которым требовалась немедленная госпитализация, а в 64,8% безопасных ситуаций, наоборот, советовала ехать в больницу без достаточных оснований.
В то же время сами модели при решении тех же задач без участия пользователей показывают значительно более высокую точность. В среднем LLM правильно определяют релевантные медицинские состояния примерно в 94,9% случаев.
По мнению ученых, разрыв в результатах объясняется особенностями взаимодействия человека и ИИ: пользователи часто сообщают неполную информацию о симптомах, неправильно интерпретируют ответы модели или не учитывают предложенные рекомендации.
Авторы также отмечают, что стандартные тесты медицинских знаний плохо отражают эффективность таких систем в реальном использовании. Хотя ИИ-модели показывают высокие результаты на медицинских экзаменах, эти показатели почти не связаны с точностью решений. По мнению исследователей, перед внедрением подобных технологий в здравоохранение необходимо проводить испытания с участием реальных пользователей.
Похожие выводы были получены и в других работах, посвященных взаимодействию человека и алгоритмов в медицине. Так, международная группа ученых проанализировала 52 эмпирических исследования совместной работы клиницистов и медицинских ИИ-систем, охватывающих 1 098 специалистов и почти 35 тысяч диагностических задач. Анализ показал, что связка «врач + ИИ» действительно может улучшить результаты по сравнению с работой врача в одиночку, однако ожидаемого «синергетического эффекта» обычно не возникает: совместная работа не превосходит по точности того участника, который изначально показывает лучший результат – человека или алгоритм.
На этом фоне в научной среде обсуждаются новые модели организации работы с медицинскими алгоритмами. В частности, международная группа ученых предложила ввести новую медицинскую специализацию – «алгоритмический консультант». Авторы отмечают, что такие специалисты могли бы стать посредниками между врачами и системами ИИ, помогая выбирать подходящие модели, интерпретировать их выводы и контролировать внедрение алгоритмов в медорганизациях.
* Meta признана экстремистской организацией и запрещена в России
Подписывайтесь на наши каналы в MAX: Vademecum и Vademecum Live