Исследование, опубликованное в JAMA Network Open, показало ограниченность нейросетей в медицинских вопросах – оказалось, что языковые модели не столько рассуждают, сколько угадывают по знакомым шаблонам. Телеграм-канал "Медкарта" объяснил, как удалось это выяснить.
Учёные взяли сотню вопросов из медицинского экзамена MedQA и везде заменили правильный вариант ответа на "Ни один из указанных". Такой трюк позволил проверить, заметят ли модели подвох, или же будут подбирать привычные ответы. Падение точности оказалось красноречивым:
- GPT-4o: -36,8.
- Gemini 2.0: -33.8.
- Claude 3.5: -26.5.
- LLaMA 3.3: -38.2.
- DeepSeek-R1: -8.8.
- o3-mini: -16.2.
Вместо логического анализа нейросети чаще пытались "подогнать" ответ под паттерн, чем по-настоящему разобрать задачу. Авторы работы делают вывод, что применять языковые модели в клинической практике пока рискованно.
Ранее Ruposters сообщал, что ChatGPT и DeepSeek обошли людей на медицинском экзамене, но со стандартными вопросами.