• bitcoinBitcoin (BTC) $ 79,666.00
  • ethereumEthereum (ETH) $ 2,280.66
  • tetherTether (USDT) $ 0.999761
  • usd-coinUSDC (USDC) $ 0.999826
  • tronTRON (TRX) $ 0.351421
  • dogecoinDogecoin (DOGE) $ 0.106291
  • cardanoCardano (ADA) $ 0.261945
  • leo-tokenLEO Token (LEO) $ 10.37
  • zcashZcash (ZEC) $ 569.67
  • bitcoin-cashBitcoin Cash (BCH) $ 450.06
  • moneroMonero (XMR) $ 396.52
  • chainlinkChainlink (LINK) $ 9.89
  • stellarStellar (XLM) $ 0.158471
  • daiDai (DAI) $ 0.999786
  • litecoinLitecoin (LTC) $ 56.51
  • hedera-hashgraphHedera (HBAR) $ 0.090226
  • crypto-com-chainCronos (CRO) $ 0.069495
  • okbOKB (OKB) $ 85.24
  • ethereum-classicEthereum Classic (ETC) $ 9.37
  • algorandAlgorand (ALGO) $ 0.127466
  • kucoin-sharesKuCoin (KCS) $ 8.27
  • cosmosCosmos Hub (ATOM) $ 1.87
  • vechainVeChain (VET) $ 0.007576
  • dashDash (DASH) $ 50.02
  • true-usdTrueUSD (TUSD) $ 0.998909
  • tezosTezos (XTZ) $ 0.377015
  • decredDecred (DCR) $ 19.06
  • iotaIOTA (IOTA) $ 0.058128
  • neoNEO (NEO) $ 2.96
  • basic-attention-tokenBasic Attention (BAT) $ 0.105417
  • 0x0x Protocol (ZRX) $ 0.118773
  • ravencoinRavencoin (RVN) $ 0.006120
  • qtumQtum (QTUM) $ 0.919475
  • ontologyOntology (ONT) $ 0.063451
  • iconICON (ICX) $ 0.038860
  • wavesWaves (WAVES) $ 0.417090
  • paxos-standardPax Dollar (USDP) $ 0.999566
  • liskLisk (LSK) $ 0.131437
  • huobi-tokenHuobi (HT) $ 0.157668
  • bitcoin-diamondBitcoin Diamond (BCD) $ 0.061182
  • bitcoin-goldBitcoin Gold (BTG) $ 0.608219
  • augurAugur (REP) $ 0.996941
  • nemNEM (XEM) $ 0.000707
Прочее

Проблема «катастрофического забывания»: ИИ без поиска — как эксперт без интернета

Большие языковые модели сталкиваются с архитектурной проблемой, которую индустрия пока не решила окончательно: после обучения знания модели фактически фиксируются, а любая попытка их обновить грозит так называемым «катастрофическим забыванием».

Что такое катастрофическое забывание

Исследование, опубликованное в январе 2026 года, детально проанализировало механизмы этого явления в трансформерных моделях при последовательном обучении. Авторы выявили три ключевых процесса: интерференцию градиентов в весах внимания, дрейф представлений в промежуточных слоях и сглаживание ландшафта потерь. При этом около 15–23% голов внимания подвергаются серьёзному нарушению — особенно в нижних слоях сети. Примечательно, что забывание сильнее проявляется именно тогда, когда новые задачи похожи на уже изученные.

Параллельное исследование того же периода показало, что даже градиентно-свободные методы — в частности, эволюционные стратегии — не спасают от забывания предыдущих способностей. Такие методы показывают сопоставимые результаты на математических задачах и задачах логического вывода, однако вносят более масштабные изменения в веса модели — а значит, сильнее затрагивают уже накопленные знания.

Суть проблемы — в том, что модель оперирует вероятностями, а не фактами. Без доступа к актуальным внешним данным она воспроизводит то, что усвоила в ходе обучения, нередко галлюцинируя при запросах о событиях, произошедших после его завершения.

Поиск как инфраструктурное преимущество

Основной рабочий подход сегодня — генерация с дополнением на основе поиска (Retrieval-Augmented Generation, RAG): модель не обучается заново, а получает доступ к внешним источникам в момент генерации ответа. Это позволяет опираться на актуальные данные, не затрагивая веса сети и не провоцируя забывание. Однако реализовать генерацию на основе поиска на должном уровне могут прежде всего те компании, у которых уже есть собственная поисковая инфраструктура.

Microsoft интегрирует Bing напрямую с Copilot: система формирует суммированные ответы с указанием источников и предлагает направления для дальнейшего изучения темы. Google обеспечивает связку своего поиска с Gemini, давая модели доступ к актуальной информации в реальном времени. Яндекс реализует аналогичную логику через интеграцию YandexGPT с поисковыми сервисами: в версии 5.1 Pro доля неправильных ответов снизилась с 30% до 16% по сравнению с предыдущей. Yandex Cloud Search API при этом позволяет объединять поисковые возможности с генеративными ответами на базе YandexGPT для формирования единого результата на запрос пользователя.

Компании без собственного поиска оказываются в принципиально иной ситуации: им приходится либо использовать сторонние решения, либо строить поисковую инфраструктуру с нуля — включая системы сбора и индексации данных из интернета. Это не только технологическая задача — поиск требует многолетней работы с качеством данных, ранжированием и фильтрацией выдачи. Быстро воспроизвести такое преимущество крайне сложно. Как отмечает Павел Голосов, директор Института общественных наук РАНХиГС: «Среди компаний в России, у которых на текущий момент есть собственный поиск, Яндекс выглядит одним из наиболее сильных игроков благодаря сочетанию развитого поиска, хорошего понимания русскоязычной среды и возможности встроить это преимущество в ИИ-сервисы».

Ученые ищут решение

Ещё в 2023 году было эмпирически подтверждено существование катастрофического забывания при последовательной настройке моделей — эта работа во многом определила направление последующих исследований. В 2026 году появляются стратегии частичного снижения остроты проблемы — O-LoRA, CLAIM, Nested Learning от Google Research, — однако фундаментальное архитектурное ограничение по-прежнему остаётся предметом активного научного внимания.

На этом фоне расстановка сил в индустрии становится всё более очевидной: компании с развитой поисковой инфраструктурой получают структурное преимущество, которое сложно компенсировать одними лишь улучшениями архитектуры моделей. Генерация и интеграция на основе поиска сегодня — это не временный обходной путь, а ключевой элемент конкурентоспособности продуктов искусственного интеллекта. И пока исследователям не удастся решить проблему забывания на уровне самой модели, доступ к качественному поиску останется одним из главных факторов, определяющих, чьи ИИ-сервисы окажутся точнее и надёжнее.

Мнение ИИ

С точки зрения нейробиологической аналогии, проблема «катастрофического забывания» заставляет вспомнить: человеческий мозг решил схожую задачу через принципиально иную архитектуру — у него память и вычисления физически совмещены в одном нейроне. Как отмечает материал о природе интеллекта, после тренировки весовые коэффициенты современных моделей фиксируются — и система не учится на новом опыте так, как человек. Это архитектурное расхождение куда глубже, чем просто технический дефект: оно указывает на то, что трансформеры изначально не проектировались как системы непрерывного знания. RAG — изящный обходной маневр, но не решение. Настоящий вопрос звучит так: возможно ли вообще создать модель, которая «помнит» новое, не «забывая» старое, — или придется переосмыслить саму архитектуру обучения с нуля?

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»