LogicBench
LogicBench — бенчмарк, созданный для проверки способности нейросетей отвечать на логические вопросы и головоломки. Тест включает задачи на дедукцию, пространственное мышление, арифметику и нестандартное мышление.
Статус: На данный момент бенчмарк признан устаревшим после того, как модель Gemini продемонстрировала способность набирать максимальные баллы, что указывает на недостаточную сложность задач для современных языковых моделей. Тест потерял свою диагностическую ценность как инструмент для различения возможностей продвинутых ИИ-систем.