Параметры больше не решают: почему 4-миллиардная модель обходит 30-миллиардную и что это значит для будущего AI

Параметры больше не решают: почему 4-миллиардная модель обходит 30-миллиардную и что это значит для будущего AI
Параметры больше не решают: почему 4-миллиардная модель обходит 30-миллиардную и что это значит для будущего AI

Бывало ли у вас такое: запускаете на своём компьютере огромную языковую модель на 30 миллиардов параметров, а она не может связать двух слов по-русски? А потом ставите на телефон крошечную четырёхмиллиардную — и она отвечает чисто, связно и по делу. Звучит как парадокс, но в 2026 году это — повседневная реальность.

Раньше мы меряли модели гигабайтами видеопамяти и количеством параметров. Сегодня архитектура — вот что на самом деле определяет «ум» нейросети. Давайте разберёмся, почему ядро модели важнее её размера, как интернет-доступ обесценивает гигантские хранилища знаний и почему гонка параметров, похоже, подходит к концу.

Ядро vs параметры: в чём разница и почему это важно

Когда мы говорим «ядро модели», мы имеем в виду её архитектуру: как организованы слои, как работает внимание (attention), как модель маршрутизирует токены между «экспертами». Параметры же — это «объём памяти», количество сохранённых знаний.

Раньше увеличение параметров почти гарантированно давало прирост качества. Но в последние два года этот закон перестал работать. Теперь новая архитектура с умеренным количеством параметров обходит старую с гигантским.

Вот конкретный пример. Возьмём семейство Qwen от Alibaba:

  • Qwen 3.6-35B-A3B — это MoE-модель (Mixture of Experts). Всего 35 млрд параметров, но активных — только 3 миллиарда на токен. Она на уровне Deepseek V4 flash с сотнями миллиардов параметров. Потому что они вышли примерно в одно время, и архитектура и ядро у них на современном уровне, на одном.
  • Qwen 3.6 на 27 млрд — плотная (dense) модель той же архитектуры. Результаты — на том же уровне, потому что ядро одно и то же.
  • Qwen 3 Coder на ~300 млрд — старая архитектура третьего поколения. Несмотря на вдесятеро большее количество параметров, кодит и рассуждает хуже, чем 35-миллиардная «шестёрка».

Вывод: архитектура задаёт потолок возможностей, а параметры — лишь наполнение. Можно насыпать в старую архитектуру хоть триллион параметров — «умнее» она не станет. Она станет только медленнее и дороже.

Эффект Gemma: как Google перевернул игру

Самый наглядный пример торжества архитектуры над параметрами — это линейка Gemma от Google.

Gemma 3 в максимальной комплектации (около 30 млрд параметров) при запуске на локальном компьютере порой не могла адекватно составить предложение на русском языке. Просто не справлялась с базовой связностью текста. А теперь — Gemma 4. Всего 4 миллиарда параметров. И она общается на русском без ошибок, с правильной грамматикой и осмысленными ответами. Разница — поколение архитектуры.

Google официально позиционирует Gemma 4 как «byte for byte, the most capable open models» — самые способные открытые модели на единицу размера. И это не маркетинг. Это отражение фундаментального сдвига: качество архитектурного дизайна важнее количества параметров на порядок.

Кстати, внутри Gemma 4 тоже есть версии с разной архитектурой:

  • E4B (4.5 млрд) — плотная модель, для on-device сценариев;
  • 26B-A4B (MoE) — 26 млрд тотальных параметров, 4 млрд активных. По тестам — разница в пределах 2% от флагманской 31B-модели, но работает быстрее, чем 4-миллиардная плотная версия.

DeepSeek V4: Flash vs Pro — когда разницы почти нет

DeepSeek V4 — хрестоматийный пример. Две модели: Flash и Pro. Одна заточена под скорость и эффективность, вторая — под глубину рассуждений. Обе — на одной архитектуре с гибридным attention-механизмом CSA+HCA, который снижает вычислительные затраты до 27% от предыдущего поколения и уменьшает KV-кеш до 10% от V3.2.

Что говорят тесты:

  • В кодинге разница между Flash и Pro — на уровне статистической погрешности. 2–3 пункта на бенчмарках. То есть для практических задач они практически идентичны.
  • Pro лучше справляется с длинными цепочками рассуждений, сложной отладкой и неоднозначными задачами.
  • Flash — в два раза быстрее и значительно дешевле. При этом по цене входа Flash в 268 раз дешевле Claude на входных токенах ($0,14 против $15).

И вот ключевой вопрос: если Flash справляется с кодингом так же хорошо, как Pro, и работает вдвое быстрее — зачем платить больше? Разве что для задач, где нужна действительно предельная глубина анализа. Но для 90% сценариев Flash — более чем достаточно.

Разница между моделями — по сути, только в количестве активных параметров и, соответственно, объёме знаний. Архитектура-то одна. И эта архитектура — вот что на самом деле «думает». Параметры лишь поставляют фактуру для размышлений.

Интернет как внешняя память: зачем модели гигантские знания?

Раньше был резон: хочешь, чтобы модель знала всё — загружай в неё всё. Но сегодня практически любая передовая модель имеет доступ к поиску в интернете. И это меняет правила игры.

Возьмём Qwen 3.6-35B-A3B. Через интеграцию с search-инструментами (тот же OpenCode) она умеет гуглить. Если ей не хватает знаний — она не выдумывает, а идёт и читает актуальную информацию. Более того, это даёт ей преимущество перед моделями, которые полагаются только на свои «встроенные» знания — ведь те могут быть устаревшими на год и больше.

Схема работает такая:

  1. Ядро модели обеспечивает понимание контекста, логику и способность к рассуждению;
  2. Базовые знания (35–60 млрд параметров) дают фундамент, от которого модель отталкивается;
  3. Интернет предоставляет актуальные, свежие данные по запросу.

И действительно: зачем загружать всю Википедию в параметры модели, если можно просто открыть браузер и прочитать нужную статью? Это эффективнее, дешевле, и информация не устаревает.

Цена гигантизма: железо, скорость и деньги

Огромные модели — это не только про «ум». Это про:

  • Видеопамять. Для запуска 300-миллиардной модели нужны серверные GPU с десятками гигабайт VRAM. 35-миллиардная MoE с 3 млрд активных параметров запускается на одной потребительской видеокарте.
  • Скорость инференса. Чем больше параметров, тем медленнее модель генерирует каждый токен. Flash работает вдвое быстрее Pro — и это напрямую влияет на пользовательский опыт.
  • Стоимость API. Pro всегда дороже Flash, часто — кратно. А результат, повторимся, часто одинаковый.

И вот что интересно: NPU-ускорители и оптимизированное железо для AI (которые сейчас встраивают во все новые ноутбуки и телефоны) проектируются как раз под эффективные модели с умеренным количеством параметров. Индустрия «железа» тоже голосует за эффективность, а не за гигантизм.

MoE — серебряная пуля эффективности

Mixture of Experts заслуживает отдельного упоминания. Идея гениальна в своей простоте: вместо того чтобы «думать» всеми параметрами одновременно, модель маршрутизирует каждый токен только к небольшой группе «экспертов». Результат — качество большой модели при затратах маленькой.

Qwen 3.6-35B-A3B: 35 млрд параметров всего, 3 млрд активных. Эффективно модель «весит» как 3-миллиардная, а «знает» как 35-миллиардная. DeepSeek V4 Flash использует ту же MoE-идеологию — и поэтому может стоить копейки при почти флагманском качестве.

MoE — это архитектурный паттерн, который принципиально меняет экономику AI. И он становится стандартом де-факто для всех новых поколений моделей.

Что это значит для нас с вами

В сухом остатке:

  • Параметры — больше не показатель ума. Архитектура ядра решает всё. Gemma 4 на 4 млрд параметров «умнее» Gemma 3 на 30 млрд — просто потому, что она новее.
  • Flash-версии — ваш лучший выбор. В кодинге и большинстве рабочих задач разница с Pro-версиями — на уровне погрешности, а скорость и цена — отличаются кратно.
  • Интернет-доступ заменяет гигабайты встроенных знаний. Лучше иметь компактную, но архитектурно современную модель с поиском, чем монструозную, но устаревшую.
  • 35–60 млрд параметров — золотая середина 2026 года. Этого хватает для широкого спектра задач, при этом модель остаётся запускаемой на разумном железе.
  • Создателям нейросетей пора сместить фокус с наращивания параметров на совершенствование архитектуры, механизмов рассуждения и эффективности инференса.

Гонка параметров была важным этапом — она показала, что модели могут масштабироваться. Но следующий этап — гонка архитектур и эффективности. И судя по Gemma 4, Qwen 3.6 и DeepSeek V4 Flash, будущее — за компактными, быстрыми и архитектурно совершенными моделями, которые не стесняются заглянуть в интернет, если чего-то не знают.

А какая модель сейчас — ваша основная рабочая лошадка? И замечали ли вы разницу между Flash и Pro на своих задачах? Делитесь в комментариях — интересно сравнить реальный опыт.