$10 вместо $200 – как построить 7-слойную AI-архитектуру с самоулучшением
Месяц назад Anthropic заблокировал OAuth для сторонних приложений. Мы перешли на бесплатный Qwen. Это была заплатка.
Сейчас Qwen 3.6 Plus бесплатный tier тоже отключён на OpenRouter. Бесплатные модели приходят и уходят. Зависеть от чьей-то щедрости – не стратегия.
За один день я перестроил архитектуру полностью. Семь слоёв. Каскадный роутинг моделей. Самоулучшающиеся навыки. Мониторинг AI-ландшафта. Стоимость – 200.
И вам не нужно это повторять вручную. В конце статьи – один prompt. Вставьте его в Claude Code, нажмите Enter. Всё.
Почему $200 – это не про качество
Claude Opus 4.6 – отличная модель. Но 25 за выходные – это не «premium». Это налог на лень.
Один ответ на Opus стоит ~0.003. Разница в 50 раз. При этом M2.7 – лучшая модель для агентских задач по соотношению цена/качество на всём рынке.
А знаете, что стоит на первом месте по кодингу? Не Opus. Не GPT-5.4. GLM 5.1 – 58.4% на SWE-Bench Pro. Opus – 57.3%. И GLM стоит $1.40 за миллион токенов. В 3.5 раза дешевле Opus.
Дорогая модель ≠ лучшая модель. Дорогая модель = вы не настроили роутинг.
7 слоёв: что внутри
Layer 1: Cascade Model Routing
Вместо одной модели – каскад. Primary отвечает на 90% запросов. Если не справился – автоматически подхватывает следующая.
MiniMax M2.7 ($0.30/$1.20) ← 90% задач ↓ если не справилсяGLM 5.1 ($1.40/$4.40) ← код, сложные задачи ↓ если недоступенDeepSeek V3.2 ($0.26/$0.38) ← математика, анализ ↓ если всё упалоStep 3.5 Flash (бесплатно) ← NVIDIA NIM ↓MiniMax M2.5 (бесплатно) ← NVIDIA NIM ↓GLM-5.1-FP8 (бесплатно) ← ModalШесть моделей. Агент никогда не молчит. Cron-задачи (мониторинг, бэкапы, проверки) идут на бесплатные модели. Telegram-диалоги – на M2.7.
Layer 2: 5-Layer Memory
Стандартный AI-агент грузит весь контекст при каждом ответе. 22,000 токенов. Каждый. Раз.
Мы разбили память на пять уровней:
| Слой | Что | Размер | Когда грузится |
|---|---|---|---|
| L1 | Identity + routing rules | 460 токенов | Всегда |
| L2 | Активные задачи | ~2,000 токенов | Всегда |
| L3 | Навыки, знания, клиенты | Неограничен | По запросу |
| L4 | Архив, старые сессии | Сжат | Поиск через LCM |
| L5 | CC↔Agent shared signals | ~200 токенов | При старте сессии |
L1 – ультра-сжатый bootstrap. Кто я, какая модель, куда смотреть. 460 токенов вместо 22,000. Агент стартует мгновенно.
Layer 3: Smart Delegation
Агент сам решает, как обработать задачу. Простой вопрос – ответ напрямую. Код – fallback автоматически подберёт GLM 5.1. Исследование – запустит параллельных субагентов. Opus – только когда вы скажете !opus.
Принцип: не роутить задачи на дорогие модели – оптимизировать контекст, чтобы дешёвая модель давала premium-качество.
Это не мои слова. Это консенсус community. Stanford RouteLLM доказал: cascade routing + хороший контекст = 85–95% качества frontier-модели за 3% стоимости.
Layer 4: Autocontext – Self-Improvement
Каждую пятницу агент анализирует свою работу: – Какие модели timeout’ились чаще всего – Какие задачи необоснованно ушли на дорогие модели – Какие паттерны повторяются
И обновляет свои правила. Не вы улучшаете агента. Агент улучшает себя.
Layer 5: AI Landscape Monitor
Каждый понедельник агент проверяет OpenRouter API: новые модели, изменения цен. Сравнивает с baseline. Если появилась модель лучше или дешевле – алерт.
Вы всегда на переднем крае. Без ручной работы.
Layer 6: OpenSpace – Self-Evolving Skills
Это главная находка. OpenSpace – open-source движок от HKUDS (4,845 stars, MIT license).
Каждая успешная задача превращается в навык. На следующей похожей задаче агент не рассуждает заново – использует готовый навык. 46% меньше токенов.
Три режима эволюции:
- AUTO-FIX – навык сломался, починил себя сам
- AUTO-IMPROVE – успешный паттерн стал лучшей версией
- AUTO-LEARN – рабочий workflow захвачен автоматически
Через месяц библиотека навыков растёт, каждый день дешевле предыдущего.
Layer 7: Lossless Context Management
Плагин для сверхдлинного контекста (100M+ токенов). Сжимает старые сообщения без потери смысла (<9% деградации). Агент помнит всё, но платит только за актуальное.
Модели: что выбрать
| Модель | Цена (вход/выход за 1M) | Лучше всего для | Бесплатно? |
|---|---|---|---|
| MiniMax M2.7 | 1.20 | Агентские задачи | Нет |
| GLM 5.1 | 4.40 | Код (#1 SWE-Bench Pro) | Free через Modal |
| DeepSeek V3.2 | 0.38 | Математика, анализ | Free через NVIDIA |
| Step 3.5 Flash | 0.30 | Быстрые задачи | Free через NVIDIA |
| MiniMax M2.5 | 1.00 | Код (80% SWE-Bench) | Free через NVIDIA |
Бюджет: сколько реально стоит
0.003 за ответ) – 10% на GLM 5.1 fallback ($0.01 за ответ)
Итого: $20 хватает на 2–3 месяца. Не на один. На два-три.
Альтернатива: OpenCode Go за $10/мес – bundle из GLM 5.1, Kimi K2.5, MiniMax M2.7, Mimo V2Pro.
Как повторить: один prompt
Откройте терминал. Запустите Claude Code:
claudeВставьте:
Настрой мой OpenClaw сервер с 7-слойной AI-архитектурой:
1. MODEL ROUTING — каскад: Primary: openrouter/minimax/minimax-m2.7 Fallbacks (в порядке приоритета): - openrouter/z-ai/glm-5.1 - openrouter/deepseek/deepseek-v3.2 - nvidia/stepfun-ai/step-3.5-flash - nvidia/minimaxai/minimax-m2.5 - modal/zai-org/GLM-5.1-FP8
2. CRON JOBS — все enabled crons: model: nvidia/stepfun-ai/step-3.5-flash (free)
3. DEFAULTS (heartbeat, hooks): primary: nvidia/stepfun-ai/step-3.5-flash
4. LCM CONFIG (plugins.entries.lossless-claw): summaryModel: nvidia/qwen/qwen3.5-122b-a10b contextThreshold: 0.6 freshTailCount: 24
5. SOUL.md — добавь MODEL ROUTING секцию: - Primary: M2.7, стоимость turn ~$0.003 - Fallback chain описание - Delegation rules: код=fallback сам, research=parallel, opus=только по !opus - Self-improvement: mistakes.md + lessons.md
6. 5-LAYER MEMORY — создай memory/L1_INDEX.md: - Identity, model info, bootstrap sequence - 5 layers: L1 always, L2 active, L3 on-demand, L4 archive, L5 shared
7. OPENSPACE (опционально, требует Python 3.12+): git clone https://github.com/HKUDS/OpenSpace.git ~/OpenSpace cd ~/OpenSpace && python3.12 -m venv .venv source .venv/bin/activate && pip install -e . cp -r openspace/host_skills/delegate-task/ ~/.openclaw/workspace/skills/ cp -r openspace/host_skills/skill-discovery/ ~/.openclaw/workspace/skills/ openclaw mcp set openspace '{"url":"http://127.0.0.1:8081/mcp","transport":"streamable-http"}'
8. CRON JOBS — создай два новых: - AI Landscape Monitor: Monday 09:00, free model, проверяет OpenRouter API на новые модели и цены - Autocontext Analysis: Friday 22:00, free model, анализирует model performance за неделю
Валидируй JSON. Рестартуй gateway. Проверь что всё работает.Нажмите Enter. Claude Code сделает остальное.
Это не просто настройка. Это система.
Обычный AI-агент – это чат-бот с памятью. То, что мы построили – самоулучшающаяся система с шестью fallback-моделями, пятью слоями памяти, еженедельным self-review и эволюционирующими навыками.
Стоит $10 в месяц. Работает 24/7. Становится лучше каждую неделю.
Нужна помощь с настройкой? Напишите мне – подключусь и настрою.
Читайте также
Gnosis OS Gnosis OS

