ChatGPT и DeepSeek обошли людей на медицинском экзамене

Исследователи из Чикаго сравнили производительность GPT-4o и DS DeepThink R1 на примере медицинского экзамена AMBOSS, чтобы оценить их потенциал и ограничения в качестве дополнительных инструментов в медицинском образовании. Как сообщает телеграм-канал "Медкарта", нейросети в этом случае обошли людей.

Всего в исследовании задействовали 1079 вопросов разной сложности. В результате:

GPT и DS превзошли пользователей AMBOSS, показав общую точность 88,79%, 78,68% и 56,98% соответственно.
GPT показал себя в целом значительно лучше на всех трёх уровнях сложности. Эта разница была тем выше, чем сложнее были вопросы.
DS DeepThink R1 показал худшие результаты по сравнению с GPT, но доступность и конкурентоспособная точность на простых вопросах позволяют этому варианту стать жизнеспособной альтернативой, особенно в условиях ограниченных ресурсов.

Как GPT-4o и DS DeepThink R1 сдали медицинский экзамен AMBOSS по сравнению с людьми

"Исследование имеет несколько ограничений, так как в набор вопросов не входили таблицы или изображения. Хотя GPT-4o способен обрабатывать графики и таблицы, в DS эта функция пока отсутствует", – добавляет "Медкарта".

Ранее Ruposters назвал медицинские профессии, которым не грозит замена искусственным интеллектом, и оказалось, что это не только санитары.