EGEBench
EGEBench — бенчмарк, собранный из 10 случайных вопросов Единого государственного экзамена (ЕГЭ). Тест проверяет способность нейросетей справляться с задачами школьного уровня из различных предметов российской образовательной программы, включая математику, русский язык, физику и другие дисциплины.
Особенности: Бенчмарк использует реальные экзаменационные вопросы, которые российские школьники решают при поступлении в университеты, что позволяет оценить применимость языковых моделей для образовательных задач в контексте российской системы образования.