OpenAI запустила HealthBench – новый стандарт оценки медицинского ИИ

Американская компания OpenAI запустила проект HealthBench, который призван оценить, насколько точно ИИ-модели способны отвечать на вопросы, связанные со здоровьем. Как отмечает телеграм-канал "Медкарта", это насущная проблема, которую уже неоднократно пытались решить.

Эффективность нового стандарта определена следующими характеристиками:

Он включает 5 тысяч разговоров по 26 медицинским специальностям на 49 языках.
Каждый ответ модели оценивается по специальным рубрикам, созданным врачами – всего здесь 48,500 уникальных критериев.
Стандартизация оценки медицинских ИИ-моделей может вызвать спрос на блокчейн-решения в здравоохранении – в этом заинтересован криптовалютный сектор.

В то же время отдельные эксперты выразили сомнения в будущем HealthBench – они подчёркивают, что реальная клиническая практика сложнее смоделированных диалогов, поэтому потребуются дополнительные тесты.