• bitcoinBitcoin (BTC) $ 75,371.00
  • ethereumEthereum (ETH) $ 2,303.10
  • tetherTether (USDT) $ 1.00
  • usd-coinUSDC (USDC) $ 0.999794
  • tronTRON (TRX) $ 0.328372
  • dogecoinDogecoin (DOGE) $ 0.095086
  • leo-tokenLEO Token (LEO) $ 10.28
  • cardanoCardano (ADA) $ 0.248209
  • bitcoin-cashBitcoin Cash (BCH) $ 443.12
  • chainlinkChainlink (LINK) $ 9.24
  • moneroMonero (XMR) $ 353.83
  • stellarStellar (XLM) $ 0.170105
  • zcashZcash (ZEC) $ 309.53
  • daiDai (DAI) $ 0.999687
  • litecoinLitecoin (LTC) $ 55.25
  • hedera-hashgraphHedera (HBAR) $ 0.089110
  • crypto-com-chainCronos (CRO) $ 0.069812
  • okbOKB (OKB) $ 83.33
  • ethereum-classicEthereum Classic (ETC) $ 8.41
  • kucoin-sharesKuCoin (KCS) $ 8.61
  • algorandAlgorand (ALGO) $ 0.102768
  • cosmosCosmos Hub (ATOM) $ 1.79
  • vechainVeChain (VET) $ 0.007125
  • true-usdTrueUSD (TUSD) $ 0.998613
  • dashDash (DASH) $ 34.12
  • tezosTezos (XTZ) $ 0.366399
  • decredDecred (DCR) $ 19.59
  • iotaIOTA (IOTA) $ 0.058485
  • neoNEO (NEO) $ 2.85
  • basic-attention-tokenBasic Attention (BAT) $ 0.104247
  • qtumQtum (QTUM) $ 0.914909
  • ravencoinRavencoin (RVN) $ 0.005966
  • 0x0x Protocol (ZRX) $ 0.108460
  • ontologyOntology (ONT) $ 0.075167
  • iconICON (ICX) $ 0.038571
  • wavesWaves (WAVES) $ 0.418235
  • paxos-standardPax Dollar (USDP) $ 1.00
  • liskLisk (LSK) $ 0.131221
  • huobi-tokenHuobi (HT) $ 0.172045
  • bitcoin-diamondBitcoin Diamond (BCD) $ 0.061182
  • bitcoin-goldBitcoin Gold (BTG) $ 0.521218
  • augurAugur (REP) $ 0.956775
  • nemNEM (XEM) $ 0.000673
Прочее

Ученые разработали академический экзамен, который не смог сдать ни один ИИ

Международная команда почти из 1000 ученых и специалистов из более чем 500 организаций в 50 странах создала новый тест для проверки искусственного интеллекта — и ни одна из существующих моделей не смогла пройти его даже наполовину. Тест получил название «Последний экзамен человечества» (Humanity’s Last Exam, HLE) и претендует на роль нового стандарта оценки реальных возможностей ИИ.

Причина появления HLE — стремительный прогресс языковых моделей. Современные системы ИИ начали набирать почти максимальные баллы в стандартных академических тестах, в частности в широко используемом Massive Multitask Language Understanding (MMLU). Это поставило исследователей перед очевидным вопросом: если модель набирает 90%+ в тесте, означает ли это, что она действительно понимает предмет — или просто научилась распознавать шаблоны?

Вывод оказался неудобным: старые тесты больше не позволяют точно оценить возможности ИИ. Нужен был экзамен принципиально другого уровня.

2500 вопросов, на которые нет готового ответа в интернете

В финальный экзамен вошло 2 500 вопросов из самых разных областей знаний:

  • математика и естественные науки;
  • гуманитарные дисциплины;
  • древние языки;
  • узкоспециализированные научные темы.

Каждый вопрос имеет один точный проверяемый ответ. При этом задания были составлены так, чтобы исключить возможность найти решение простым поиском в интернете. Некоторые задачи требуют перевода древних пальмирских надписей, определения мелких анатомических структур птиц или анализа особенностей произношения библейского иврита.

Методология отбора вопросов тоже нетривиальна: разработчики проверяли каждое задание с помощью современных систем ИИ. Если какая-либо модель давала правильный ответ, вопрос исключали из теста. В финальную версию попали только те задания, с которыми не справилась ни одна из существующих моделей. Всего в ходе отбора было зафиксировано более 70 000 попыток — и около 13 000 вопросов, с которыми модели не справились, перешли на этап экспертной проверки.

Чтобы привлечь к созданию теста ведущих специалистов, организаторы сформировали призовой фонд в $500 000: авторы лучших 50 вопросов получали по $5 000, следующие 500 участников — по $500 каждый.

Когда экзамен прошли ведущие модели искусственного интеллекта, цифры оказались весьма скромными: GPT-4o дал около 2,7% правильных ответов; Claude 3.5 Sonnet — 4,1%; OpenAI o1 — около 8%.

Более новые модели показали несколько лучшие результаты — Gemini 2.5 Pro и Claude Opus 4.6 достигли точности в районе 40–50%. Однако даже этот результат означает, что половина заданий так и не была решена верно.

Отдельного внимания заслуживает то, как именно модели ошибаются. Исследователи измерили не только точность, но и так называемую ошибку калибровки: насколько уверенность модели в ответе соответствует реальной вероятности его правильности. У большинства протестированных систем этот показатель превысил 70% — это означает, что модели раз за разом давали неверные ответы с высокой степенью уверенности, не распознавая границы собственных возможностей.

По словам одного из участников проекта, профессора Тунга Нгуена (Tung Nguyen) из Техасского университета A&M, задача экзамена — не доказать превосходство человека над машиной. «Интеллект — это не только распознавание шаблонов. Важны глубина понимания, контекст и специализированные знания», — отметил он.

Часть вопросов уже опубликована в открытом доступе, однако большинство заданий остаются скрытыми — чтобы модели ИИ не могли просто выучить ответы. Такой подход призван обеспечить долгосрочную актуальность теста как инструмента измерения реального прогресса.

Разрыв между возможностями ИИ и уровнем человеческих экспертов по-прежнему велик — и HLE впервые дает исследователям инструмент, позволяющий отслеживать, как этот разрыв сокращается. По мере того как будущие модели будут приближаться к отметке в 80–90%, индустрия получит более четкое представление о том, что именно стоит за понятием «экспертное знание» применительно к искусственному интеллекту.

Мнение ИИ

С точки зрения машинного анализа данных, наиболее показателен не сам процент правильных ответов, а ошибка калибровки: модели систематически демонстрируют высокую уверенность именно там, где ошибаются. Этот феномен — уверенное незнание — в когнитивной психологии известен как эффект Даннинга-Крюгера, и его присутствие в языковых моделях ставит практический вопрос: насколько можно доверять системам, которые не умеют обозначать пределы собственной компетентности?

Исторический контекст подсказывает: каждый предыдущий «непреодолимый» тест для ИИ сдавался быстрее, чем ожидалось. Тест GPQA считался сложным — модели преодолели его уровень за считанные месяцы. Сам HLE это признает, предусматривая механизм HLE-Rolling для регулярного обновления датасета. Вопрос не в том, сколько времени займет преодоление этого барьера, — а в том, что именно будет считаться следующим.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»