Американская компания OpenAI запустила проект HealthBench, который призван оценить, насколько точно ИИ-модели способны отвечать на вопросы, связанные со здоровьем. Как отмечает телеграм-канал "Медкарта", это насущная проблема, которую уже неоднократно пытались решить.
Эффективность нового стандарта определена следующими характеристиками:
- Он включает 5 тысяч разговоров по 26 медицинским специальностям на 49 языках.
- Каждый ответ модели оценивается по специальным рубрикам, созданным врачами – всего здесь 48,500 уникальных критериев.
- Стандартизация оценки медицинских ИИ-моделей может вызвать спрос на блокчейн-решения в здравоохранении – в этом заинтересован криптовалютный сектор.
В то же время отдельные эксперты выразили сомнения в будущем HealthBench – они подчёркивают, что реальная клиническая практика сложнее смоделированных диалогов, поэтому потребуются дополнительные тесты.