Последняя защита человечества: этот «невозможный» тест ИИ все еще не может пройти в 2026 году

Узнайте, как GPT и Gemini провалили задания уровня докторантуры

Пока искусственный интеллект развивается с головокружительной скоростью, научное сообщество предложило ему принципиально новое испытание. Исследователи из Центра безопасности ИИ и организации Scale AI представили бенчмарк под названием «Последний экзамен человечества» (HLE).

Его цель — не просто проверить эрудицию нейросетей, а создать последний рубеж обороны против поверхностного запоминания информации. В отличие от стандартных тестов, HLE ставит перед ИИ задачи, с которыми не справляются даже поисковые системы.

Учёные подчёркивают: при всех своих вычислительных мощностях современные модели пасуют там, где требуется по-настоящему глубокий, экспертный уровень знаний.

Как устроен «экзамен»: отбор жёстче, чем в докторантуре

Проект HLE — это не просто подборка вопросов на эрудицию, а полноценная интеллектуальная крепость. Для его создания привлекли более 1000 экспертов из 500 ведущих мировых институтов, которые сгенерировали около 70 тысяч исходных заданий.

Принцип отбора был бескомпромиссным: каждый вопрос должен иметь уникальное и проверяемое решение, которое при этом полностью отсутствует в открытом доступе в интернете.

Такое строгое условие введено, чтобы помешать моделям «жульничать», воспроизводя данные из своей обучающей выборки — главная проблема всех предыдущих тестов.

Особенность методологии заключалась и в том, что организаторы использовали ИИ против него самого. Каждый предложенный вопрос сначала пропускали через сильнейшие модели, такие как GPT-4o или Claude 3.5 Sonnet.

Если нейросеть справлялась с задачей, вопрос сразу отбраковывался как слишком примитивный. В итоге «выжили» лишь 2500 задач, соответствующих уровню докторантуры.

Сложность этого корпуса такова, что ставит в тупик даже студентов магистратуры, специализирующихся на юриспруденции или теоретической физике.

Провал лидеров: даже лучшие ИИ берут барьер с трудом

Первые же замеры показали, насколько серьёзен новый экзамен. В январе 2025 года модель o1 от OpenAI, считавшаяся эталоном логических рассуждений, набрала лишь жалкие 8,3%.

Этот результат ярко продемонстрировал пропасть между скоростью обработки данных и подлинным пониманием сложных дисциплин. HLE вынуждает машины покинуть зону статистического комфорта, где они просто угадывают вероятные ответы, и погрузиться в сферу чистого абстрактного мышления.

Однако ситуация не стоит на месте. Уже к февралю 2026 года показатели изменились. Модель Google Gemini 3 Deep Think установила новый мировой рекорд, преодолев планку в 48,4%.

И хотя прогресс за год впечатляет, этот результат остаётся насмешливо низким по сравнению с 90-процентной успешностью экспертов-людей в своих узких областях.

Это отставание доказывает: ИИ действительно учится манипулировать сложными концепциями, но ему всё ещё не хватает аналитической тонкости и нюансов, присущих опытному исследователю.

Выше знаний: почему экзамен важнее, чем просто рекорды

Авторы исследования, опубликованного в журнале Nature, настаивают на важном различии между успешной сдачей HLE и появлением Общего искусственного интеллекта (AGI).

Высокий балл в этом тесте подтвердит наличие передовых научных знаний, но этого недостаточно, чтобы говорить об автономной исследовательской деятельности.

Как отмечает нейробиолог Мануэль Шоттдорф, хороший результат — условие необходимое, но совершенно недостаточное для утверждения, что машины обрели истинный интеллект.

Таким образом, «Последний экзамен человечества» — это не просто техническое соревнование. Это попытка очертить границы того, что делает человеческий разум уникальным: способность решать новые, нестандартные задачи без опоры на гигантскую базу заученных шаблонов.

Разработчики надеются, что к концу 2026 года ИИ сможет преодолеть 50-процентный рубеж.

Но независимо от рекордов, HLE останется самым надёжным барометром: сможет ли машина мыслить по-настоящему самостоятельно или так и останется сложным отражением наших собственных знаний.

Фото: freepik.com