AI-модели для агентов 2026: роутинг, экономия, выбор

Четвёртого апреля, два часа ночи, терминал возвращает 403. Anthropic заблокировал полтора миллиона аккаунтов. Утром я уже перенастраивал стек: OpenRouter, MiniMax M2.7, NVIDIA NIM, каскадный fallback.

Это живая статья. Обновляется по мере изменений. Последняя версия: 12 апреля 2026. Все данные — из production системы, которая обрабатывает 2-3 миллиона токенов в день.

OpenRouter: реальная статистика, не маркетинг#

Прежде чем рассказывать что выбирать — вот что реально используется. Данные с openrouter.ai/rankings и openrouter.ai/apps, 12 апреля 2026.

Топ приложений на OpenRouter#

Место	Приложение	Токенов	Что это
1	OpenClaw	20.67 трлн	Мультиагентная платформа (наша)
2	Kilo Code	6.3 трлн	AI-кодинг для IDE
3	Claude Code	3.5 трлн	CLI-агент Anthropic
4	Hermes Agent	1.67 трлн	Self-improving агент Nous Research
5-6	Cline, Descript	1.6 трлн, 272 млрд	IDE-агент, видеоредактор

OpenClaw — приложение номер один на OpenRouter. 20.67 триллионов токенов. 356 моделей. Это не просто “мы пользуемся” — это крупнейший потребитель на платформе.

Что реально крутит OpenClaw (топ-5 по объёму)#

Модель	Токенов	Статус
Step-3.5-Flash	3.25 трлн	deprecated, 404 — исторический лидер
GLM-5-Turbo	2.78 трлн	Активна, быстрая
Xiaomi MIMO-v2-Pro	2.70 трлн	Активна, vision
MiniMax M2.7	1.19 трлн	Активна, primary agent
Claude Sonnet 4.6	1.07 трлн	Активна, paid

Что крутит Hermes Agent (#2 глобально)#

Модель	Токенов
Qwen 3.6 Plus	497.8 млрд
Xiaomi MIMO V2 Pro	303.3 млрд
MiniMax M2.7	115.1 млрд
Claude Opus 4.6	98.5 млрд
Nemotron	86.9 млрд

Два крупнейших агентных приложения в мире используют разные стеки. OpenClaw ставит на GLM + MIMO + MiniMax. Hermes — на Qwen + MIMO + MiniMax. Общее у обоих: MiniMax M2.7 и Xiaomi MIMO в топ-5. Claude — на вторых ролях.

Что произошло с Anthropic#

Четвёртого апреля 2026 Anthropic отключил Claude для всех сторонних приложений. Подписка за $20-200/мес теперь работает только в продуктах Anthropic: Claude.ai, Claude Code, Claude Desktop.

Причина: арбитраж. Подписка за $200 покрывала нагрузки на $1,000-5,000. Агентские петли потребляют в 5-25 раз больше токенов, чем чат.

Результат: рынок мгновенно перераспределился. Open source модели и бесплатные провайдеры получили миллионы пользователей за неделю.

18 моделей в 4 тирах#

Полная карта 18 моделей для AI-агентов — LLM Model Stack, апрель 2026

Верхний уровень — только облако#

Claude Opus 4.6 — лучший для агентного кодинга, но сообщество фиксит нестабильность
GPT-5.4 — сверхчеловеческое управление компьютером, $100/мес
GLM-5.1 — первое место SWE-Pro, 8 часов автономной работы, MIT лицензия

Агентный уровень#

Модель	Назначение	Стоимость
MiniMax M2.7	97% точность навыков, primary для OpenClaw и Hermes	API
Kimi K2.5	Стабильность на длинных задачах, рой агентов	API
Grok 4.20	Самый низкий % галлюцинаций, 16 параллельных агентов	API
DeepSeek V3.2	Рассуждение уровня frontier, в 50 раз дешевле Opus	$0.27/M

Баланс — облако + локально#

Модель	Стоимость	Ключевое
Sonnet 4.6	1/5 от Opus	98% качества, 1.07 трлн токенов через OpenClaw
Gemini 3.1 Pro	Paid	Лучший мультимодальный
Qwen 3.6 Plus	Бесплатно	#1 модель Hermes Agent (497.8 млрд токенов)
Xiaomi MIMO V2 Pro	Бесплатно	Сюрприз: #3 у OpenClaw, #2 у Hermes по объёму
Mistral Small 4	$0.15/M	Заменяет три модели: reasoning + vision + code

Локальные — бесплатные, 32GB и меньше#

Модель	Память	Ключевое
Qwen 3.5-9B	16GB	Фоновый цикл, бьёт модели в 13 раз крупнее
Qwen 3.5-27B	32GB	Лучшее следование инструкциям
Gemma 4 31B	32GB	Лучшее рассуждение, Apache 2.0
DeepSeek R1 distill	16-32GB	Лучшая цепочка рассуждений за $0
GLM-4.5-Air	64-96GB	Заточен под инструменты агентов

Что я реально использую прямо сейчас#

Три уровня. Без лишнего.

MiniMax M2.7 — основа. Всё что делают мои агенты 24/7 — ресёрч, контент, соцсети, код — идёт через MiniMax. 97% точность исполнения навыков. Лучший баланс цены и качества для агентных задач. Подтверждено данными: 1.19 триллиона токенов через OpenClaw.

Claude Opus 4.6 — по команде. Только когда нужна тяжёлая артиллерия: сложный рефакторинг, архитектурные решения, починка системы. Вызывается явно через Claude Code (CLI). Не стоит в каскаде — дорогой и медленный для рутины.

Всё остальное — роутинг на бесплатные. Gemini 3 Flash для быстрых ответов (5с). Qwen Coder для кода. NVIDIA NIM Nemotron для reasoning. Каскад из 5 ступеней — если первая модель не отвечает, автоматически следующая. 80% запросов = $0.

OpenClaw — операционный партнёр. Gateway + мультиагент, 24/7 через Telegram. Модели — только OpenRouter + NVIDIA NIM.

Два провайдера — хватит#

Провайдер	Что даёт	Бесплатно	Лимит
OpenRouter	350+ моделей, единый API	~30 моделей	~20-50 зап/мин
NVIDIA NIM	189 моделей, hosted inference	Всё бесплатно	40 зап/мин

Зачем два? Разные failure domains. Когда OpenRouter лежит — NVIDIA работает. И наоборот.

Архитектура роутинга#

80% запросов — рутина. Они идут через бесплатные модели. 20% — глубокий ресёрч и контент — через платные.

Каскад#

1
PRIMARY: google/gemini-3-flash-preview       ← бесплатно, 1M, 5с TTFT
2

3
Каскад при ошибках:
4
  FB1: minimax/minimax-m2.7:free             ← бесплатно, хороший русский
5
  FB2: qwen/qwen3-next-80b-a3b:free         ← бесплатно, MoE
6
  FB3: deepseek/deepseek-v3.2               ← $0.26/M
7
  FB4: nvidia/nemotron-3-super-120b-a12b    ← NVIDIA NIM, бесплатно
8
  FB5: qwen/qwen3.6-plus                   ← $0.33/M, последний резерв

Четыре агента#

Агент	Модель	Цена
`fast`	MiniMax M2.7	$0
`research`	Qwen 3.6 Plus (1M)	$0.33/M
`vision`	Gemini 3 Flash / MIMO V2 Pro	$0
`code`	Qwen Coder	$0

Цифры из production#

Реальные данные за последние 2 месяца. Не прогнозы — факт.

Канал	Токенов/день	Стоимость/мес	Доля расходов
OpenClaw (роутинг, 80% бесплатно)	55 млрд	$6	0.9%
Claude Code (Opus по команде)	750K	$675	99.1%
Итого	55 млрд	$681	—

Парадокс: 99.9% токенов стоят $6 в месяц. А $675 уходит на 0.001% — но это те самые токены, которые чинят систему, пишут код и принимают решения.

Если только OpenClaw	Без роутинга	С роутингом	Экономия
Мой объём (55 млрд/день)	$29/мес	$6/мес	80%
Средний агент (1M/день)	$16/мес	$3/мес	80%
Тяжёлый агент (10M/день)	$156/мес	$31/мес	80%

Красные флаги#

Что сломает production
Step-3.5-Flash — исторически #1 по объёму (3.25 трлн токенов!), но deprecated, возвращает 404. Если он в каскаде — уберите.
Groq llama-3.3-70b free — лимит 12K токенов/мин, bootstrap агента = 32-60K. Результат: каскадный сбой.
Anthropic через OpenRouter — Haiku стоит $1.00/M. MiniMax M2.7= $0.
arcee-ai/trinity — дублирует и переставляет данные. Мусор на выходе.
Secrets в openclaw.json — openclaw gateway install хардкодит ВСЕ env-переменные. Используйте EnvironmentFile=.

Почему боты не могут чинить себя#

Рекурсивная ловушка: чтобы бот починил себя, ему нужно загрузить свою память. Но если проблема в загрузке памяти — он не может дойти до диагностики. Пациент оперирует себя под наркозом.

Решение: внешний хирург. Claude Code, SSH, CLI. Один робот чинит другого.

Правило
Для ремонта бота — всегда внешний инструмент. Claude Code, curl, SSH. Никогда не бот через себя.

Ссылки#

OpenClaw — #1 приложение на OpenRouter. Gateway + мультиагент.
Claude Code — CLI-агент, Opus 4.6, 1M контекст.
NVIDIA NIM — 189 бесплатных моделей.
OpenRouter — 350+ моделей, ~30 бесплатных.
OpenRouter Rankings — живая статистика использования.

Changelog#

2026-04-12 — Глубокий апгрейд: реальная статистика OpenRouter (OpenClaw #1 глобально, 20.67 трлн токенов). Данные по top-5 моделям OpenClaw и Hermes Agent по объёму usage. Добавлены: Xiaomi MIMO V2 Pro (сюрприз — #3 по usage), Grok 4.20, Mistral Small 4, Gemma 4 31B. Step-3.5-Flash маркирован как deprecated. SEO: новый slug, title, description. Content Playbook applied.

2026-04-11 — NVIDIA NIM, routing, 4 агента, live benchmark, красные флаги.

2026-04-07 — Первая публикация. Бан Anthropic, Qwen 3.6 Plus, миграция.

AI-модели для агентов 2026: роутинг, экономия, выбор

OpenRouter: реальная статистика, не маркетинг#

Топ приложений на OpenRouter#

Что реально крутит OpenClaw (топ-5 по объёму)#

Что крутит Hermes Agent (#2 глобально)#

Что произошло с Anthropic#

18 моделей в 4 тирах#

Верхний уровень — только облако#

Агентный уровень#

Баланс — облако + локально#

Локальные — бесплатные, 32GB и меньше#

Что я реально использую прямо сейчас#

Два провайдера — хватит#

Архитектура роутинга#

Каскад#

Четыре агента#

Цифры из production#

Красные флаги#

Почему боты не могут чинить себя#

Ссылки#

Changelog#

Читайте также