AI-модели для агентов 2026: роутинг, экономия, выбор

5 минут

Четвёртого апреля, два часа ночи, терминал возвращает 403. Anthropic заблокировал полтора миллиона аккаунтов. Утром я уже перенастраивал стек: OpenRouter, MiniMax M2.7, NVIDIA NIM, каскадный fallback.

Это живая статья. Обновляется по мере изменений. Последняя версия: 12 апреля 2026. Все данные — из production системы, которая обрабатывает 2-3 миллиона токенов в день.


OpenRouter: реальная статистика, не маркетинг#

Прежде чем рассказывать что выбирать — вот что реально используется. Данные с openrouter.ai/rankings и openrouter.ai/apps, 12 апреля 2026.

Топ приложений на OpenRouter#

МестоПриложениеТокеновЧто это
1OpenClaw20.67 трлнМультиагентная платформа (наша)
2Kilo Code6.3 трлнAI-кодинг для IDE
3Claude Code3.5 трлнCLI-агент Anthropic
4Hermes Agent1.67 трлнSelf-improving агент Nous Research
5-6Cline, Descript1.6 трлн, 272 млрдIDE-агент, видеоредактор

OpenClaw — приложение номер один на OpenRouter. 20.67 триллионов токенов. 356 моделей. Это не просто “мы пользуемся” — это крупнейший потребитель на платформе.

Что реально крутит OpenClaw (топ-5 по объёму)#

МодельТокеновСтатус
Step-3.5-Flash3.25 трлнdeprecated, 404 — исторический лидер
GLM-5-Turbo2.78 трлнАктивна, быстрая
Xiaomi MIMO-v2-Pro2.70 трлнАктивна, vision
MiniMax M2.71.19 трлнАктивна, primary agent
Claude Sonnet 4.61.07 трлнАктивна, paid

Что крутит Hermes Agent (#2 глобально)#

МодельТокенов
Qwen 3.6 Plus497.8 млрд
Xiaomi MIMO V2 Pro303.3 млрд
MiniMax M2.7115.1 млрд
Claude Opus 4.698.5 млрд
Nemotron86.9 млрд

Два крупнейших агентных приложения в мире используют разные стеки. OpenClaw ставит на GLM + MIMO + MiniMax. Hermes — на Qwen + MIMO + MiniMax. Общее у обоих: MiniMax M2.7 и Xiaomi MIMO в топ-5. Claude — на вторых ролях.


Что произошло с Anthropic#

Четвёртого апреля 2026 Anthropic отключил Claude для всех сторонних приложений. Подписка за $20-200/мес теперь работает только в продуктах Anthropic: Claude.ai, Claude Code, Claude Desktop.

Причина: арбитраж. Подписка за $200 покрывала нагрузки на $1,000-5,000. Агентские петли потребляют в 5-25 раз больше токенов, чем чат.

Результат: рынок мгновенно перераспределился. Open source модели и бесплатные провайдеры получили миллионы пользователей за неделю.


18 моделей в 4 тирах#

Полная карта 18 моделей для AI-агентов — LLM Model Stack, апрель 2026

Верхний уровень — только облако#

  • Claude Opus 4.6 — лучший для агентного кодинга, но сообщество фиксит нестабильность
  • GPT-5.4 — сверхчеловеческое управление компьютером, $100/мес
  • GLM-5.1 — первое место SWE-Pro, 8 часов автономной работы, MIT лицензия

Агентный уровень#

МодельНазначениеСтоимость
MiniMax M2.797% точность навыков, primary для OpenClaw и HermesAPI
Kimi K2.5Стабильность на длинных задачах, рой агентовAPI
Grok 4.20Самый низкий % галлюцинаций, 16 параллельных агентовAPI
DeepSeek V3.2Рассуждение уровня frontier, в 50 раз дешевле Opus$0.27/M

Баланс — облако + локально#

МодельСтоимостьКлючевое
Sonnet 4.61/5 от Opus98% качества, 1.07 трлн токенов через OpenClaw
Gemini 3.1 ProPaidЛучший мультимодальный
Qwen 3.6 PlusБесплатно#1 модель Hermes Agent (497.8 млрд токенов)
Xiaomi MIMO V2 ProБесплатноСюрприз: #3 у OpenClaw, #2 у Hermes по объёму
Mistral Small 4$0.15/MЗаменяет три модели: reasoning + vision + code

Локальные — бесплатные, 32GB и меньше#

МодельПамятьКлючевое
Qwen 3.5-9B16GBФоновый цикл, бьёт модели в 13 раз крупнее
Qwen 3.5-27B32GBЛучшее следование инструкциям
Gemma 4 31B32GBЛучшее рассуждение, Apache 2.0
DeepSeek R1 distill16-32GBЛучшая цепочка рассуждений за $0
GLM-4.5-Air64-96GBЗаточен под инструменты агентов

Что я реально использую прямо сейчас#

Три уровня. Без лишнего.

MiniMax M2.7 — основа. Всё что делают мои агенты 24/7 — ресёрч, контент, соцсети, код — идёт через MiniMax. 97% точность исполнения навыков. Лучший баланс цены и качества для агентных задач. Подтверждено данными: 1.19 триллиона токенов через OpenClaw.

Claude Opus 4.6 — по команде. Только когда нужна тяжёлая артиллерия: сложный рефакторинг, архитектурные решения, починка системы. Вызывается явно через Claude Code (CLI). Не стоит в каскаде — дорогой и медленный для рутины.

Всё остальное — роутинг на бесплатные. Gemini 3 Flash для быстрых ответов (5с). Qwen Coder для кода. NVIDIA NIM Nemotron для reasoning. Каскад из 5 ступеней — если первая модель не отвечает, автоматически следующая. 80% запросов = $0.

OpenClaw — операционный партнёр. Gateway + мультиагент, 24/7 через Telegram. Модели — только OpenRouter + NVIDIA NIM.

Два провайдера — хватит#

ПровайдерЧто даётБесплатноЛимит
OpenRouter350+ моделей, единый API~30 моделей~20-50 зап/мин
NVIDIA NIM189 моделей, hosted inferenceВсё бесплатно40 зап/мин

Зачем два? Разные failure domains. Когда OpenRouter лежит — NVIDIA работает. И наоборот.


Архитектура роутинга#

80% запросов — рутина. Они идут через бесплатные модели. 20% — глубокий ресёрч и контент — через платные.

Каскад#

PRIMARY: google/gemini-3-flash-preview ← бесплатно, 1M, 5с TTFT
Каскад при ошибках:
FB1: minimax/minimax-m2.7:free ← бесплатно, хороший русский
FB2: qwen/qwen3-next-80b-a3b:free ← бесплатно, MoE
FB3: deepseek/deepseek-v3.2 ← $0.26/M
FB4: nvidia/nemotron-3-super-120b-a12b ← NVIDIA NIM, бесплатно
FB5: qwen/qwen3.6-plus ← $0.33/M, последний резерв

Четыре агента#

АгентМодельЦена
fastMiniMax M2.7$0
researchQwen 3.6 Plus (1M)$0.33/M
visionGemini 3 Flash / MIMO V2 Pro$0
codeQwen Coder$0

Цифры из production#

Реальные данные за последние 2 месяца. Не прогнозы — факт.

КаналТокенов/деньСтоимость/месДоля расходов
OpenClaw (роутинг, 80% бесплатно)55 млрд$60.9%
Claude Code (Opus по команде)750K$67599.1%
Итого55 млрд$681

Парадокс: 99.9% токенов стоят $6 в месяц. А $675 уходит на 0.001% — но это те самые токены, которые чинят систему, пишут код и принимают решения.

Если только OpenClawБез роутингаС роутингомЭкономия
Мой объём (55 млрд/день)$29/мес$6/мес80%
Средний агент (1M/день)$16/мес$3/мес80%
Тяжёлый агент (10M/день)$156/мес$31/мес80%

Красные флаги#

Что сломает production
  • Step-3.5-Flash — исторически #1 по объёму (3.25 трлн токенов!), но deprecated, возвращает 404. Если он в каскаде — уберите.
  • Groq llama-3.3-70b free — лимит 12K токенов/мин, bootstrap агента = 32-60K. Результат: каскадный сбой.
  • Anthropic через OpenRouter — Haiku стоит $1.00/M. MiniMax M2.7= $0.
  • arcee-ai/trinity — дублирует и переставляет данные. Мусор на выходе.
  • Secrets в openclaw.jsonopenclaw gateway install хардкодит ВСЕ env-переменные. Используйте EnvironmentFile=.

Почему боты не могут чинить себя#

Рекурсивная ловушка: чтобы бот починил себя, ему нужно загрузить свою память. Но если проблема в загрузке памяти — он не может дойти до диагностики. Пациент оперирует себя под наркозом.

Решение: внешний хирург. Claude Code, SSH, CLI. Один робот чинит другого.

Правило

Для ремонта бота — всегда внешний инструмент. Claude Code, curl, SSH. Никогда не бот через себя.


Ссылки#

  • OpenClaw — #1 приложение на OpenRouter. Gateway + мультиагент.
  • Claude Code — CLI-агент, Opus 4.6, 1M контекст.
  • NVIDIA NIM — 189 бесплатных моделей.
  • OpenRouter — 350+ моделей, ~30 бесплатных.
  • OpenRouter Rankings — живая статистика использования.

Changelog#

2026-04-12 — Глубокий апгрейд: реальная статистика OpenRouter (OpenClaw #1 глобально, 20.67 трлн токенов). Данные по top-5 моделям OpenClaw и Hermes Agent по объёму usage. Добавлены: Xiaomi MIMO V2 Pro (сюрприз — #3 по usage), Grok 4.20, Mistral Small 4, Gemma 4 31B. Step-3.5-Flash маркирован как deprecated. SEO: новый slug, title, description. Content Playbook applied.

2026-04-11 — NVIDIA NIM, routing, 4 агента, live benchmark, красные флаги.

2026-04-07 — Первая публикация. Бан Anthropic, Qwen 3.6 Plus, миграция.

Поделиться Share