Лаборатория T-Bank AI Research представила инновационный метод SAE Match, направленный на повышение прозрачности работы искусственного интеллекта, передает РИА Новости. Эта технология позволяет анализировать внутренние процессы ИИ-моделей, выявляя этапы, на которых возникают ошибки или нежелательные ответы. Разработка особенно актуальна для сфер с повышенными требованиями к точности, таких как медицина, финансы и безопасность.
Метод SAE Match фокусируется на изучении многослойных языковых моделей (LLM), отслеживая эволюцию концепций между слоями. В отличие от традиционных подходов, требующих дорогостоящего переобучения систем, новая методика позволяет корректировать генерацию данных в реальном времени. Эксперименты подтвердили её эффективность в предотвращении некорректных выводов, включая распространение недостоверной информации или этически спорных формулировок.
Руководитель исследовательской группы LLM Foundations Никита Балаганский подчеркнул, что SAE Match — важный шаг к созданию надежных ИИ-систем. Он привел пример голосового помощника, который внезапно начинает давать ложные рекомендации. Технология поможет выявлять такие сбои на ранних этапах, не нарушая работу всей модели, что особенно ценно для критических приложений. Результаты исследований SAE Match опубликованы в открытом доступе и будут представлены на международной конференции ICRL в Сингапуре с 24 по 28 апреля 2025 года.