Последняя защита человечества: этот «невозможный» тест ИИ все еще не может пройти в 2026 году
Узнайте, как GPT и Gemini провалили задания уровня докторантуры
Пока искусственный интеллект развивается с головокружительной скоростью, научное сообщество предложило ему принципиально новое испытание. Исследователи из Центра безопасности ИИ и организации Scale AI представили бенчмарк под названием «Последний экзамен человечества» (HLE).
Его цель — не просто проверить эрудицию нейросетей, а создать последний рубеж обороны против поверхностного запоминания информации. В отличие от стандартных тестов, HLE ставит перед ИИ задачи, с которыми не справляются даже поисковые системы.
Учёные подчёркивают: при всех своих вычислительных мощностях современные модели пасуют там, где требуется по-настоящему глубокий, экспертный уровень знаний.
Как устроен «экзамен»: отбор жёстче, чем в докторантуре
Проект HLE — это не просто подборка вопросов на эрудицию, а полноценная интеллектуальная крепость. Для его создания привлекли более 1000 экспертов из 500 ведущих мировых институтов, которые сгенерировали около 70 тысяч исходных заданий.
Принцип отбора был бескомпромиссным: каждый вопрос должен иметь уникальное и проверяемое решение, которое при этом полностью отсутствует в открытом доступе в интернете.
Такое строгое условие введено, чтобы помешать моделям «жульничать», воспроизводя данные из своей обучающей выборки — главная проблема всех предыдущих тестов.
Особенность методологии заключалась и в том, что организаторы использовали ИИ против него самого. Каждый предложенный вопрос сначала пропускали через сильнейшие модели, такие как GPT-4o или Claude 3.5 Sonnet.
Если нейросеть справлялась с задачей, вопрос сразу отбраковывался как слишком примитивный. В итоге «выжили» лишь 2500 задач, соответствующих уровню докторантуры.
Сложность этого корпуса такова, что ставит в тупик даже студентов магистратуры, специализирующихся на юриспруденции или теоретической физике.
Провал лидеров: даже лучшие ИИ берут барьер с трудом
Первые же замеры показали, насколько серьёзен новый экзамен. В январе 2025 года модель o1 от OpenAI, считавшаяся эталоном логических рассуждений, набрала лишь жалкие 8,3%.
Этот результат ярко продемонстрировал пропасть между скоростью обработки данных и подлинным пониманием сложных дисциплин. HLE вынуждает машины покинуть зону статистического комфорта, где они просто угадывают вероятные ответы, и погрузиться в сферу чистого абстрактного мышления.
Однако ситуация не стоит на месте. Уже к февралю 2026 года показатели изменились. Модель Google Gemini 3 Deep Think установила новый мировой рекорд, преодолев планку в 48,4%.
И хотя прогресс за год впечатляет, этот результат остаётся насмешливо низким по сравнению с 90-процентной успешностью экспертов-людей в своих узких областях.
Это отставание доказывает: ИИ действительно учится манипулировать сложными концепциями, но ему всё ещё не хватает аналитической тонкости и нюансов, присущих опытному исследователю.
Выше знаний: почему экзамен важнее, чем просто рекорды
Авторы исследования, опубликованного в журнале Nature, настаивают на важном различии между успешной сдачей HLE и появлением Общего искусственного интеллекта (AGI).
Высокий балл в этом тесте подтвердит наличие передовых научных знаний, но этого недостаточно, чтобы говорить об автономной исследовательской деятельности.
Как отмечает нейробиолог Мануэль Шоттдорф, хороший результат — условие необходимое, но совершенно недостаточное для утверждения, что машины обрели истинный интеллект.
Таким образом, «Последний экзамен человечества» — это не просто техническое соревнование. Это попытка очертить границы того, что делает человеческий разум уникальным: способность решать новые, нестандартные задачи без опоры на гигантскую базу заученных шаблонов.
Разработчики надеются, что к концу 2026 года ИИ сможет преодолеть 50-процентный рубеж.
Но независимо от рекордов, HLE останется самым надёжным барометром: сможет ли машина мыслить по-настоящему самостоятельно или так и останется сложным отражением наших собственных знаний.