Выбор LLM для агентного кодинга в IDE — это не вопрос «самой умной модели», а задача оптимизации по треугольнику: качество на SWE-bench, реальная стоимость с кешированием и поддержка мультимодальности. Ниже — актуальный срез по OpenRouter на июнь 2026 с конкретными рекомендациями по связкам.
- Актуальные цены и бенчмарки (OpenRouter, июнь 2026)
- Какую модель выбрать для работы со скриншотами ошибок
- Почему кеширование DeepSeek меняет экономику агентного кодинга
- Разбор конкретных моделей
- DeepSeek V4 Pro — основной рабочий инструмент
- DeepSeek V4 Flash — дешёвый драйвер для рутины
- MiniMax M3 — лучший по цена/качество для vision-кодинга пока действует промо
- Qwen3.7 Plus — стабильный оптимум после окончания промо M3
- MiMo-V2.5 base — омнимодальная модель для простых visual-задач
- MiMo-V2.5-Pro — надёжный fallback после окончания промо MiniMax M3
- Qwen3.7 Max — резервная альтернатива DeepSeek V4 Pro
- Claude Sonnet 4.6 и Opus 4.8 — потолок качества
- GPT-4.1 — устаревшая опция
- Рекомендуемые связки моделей
- Базовая конфигурация для большинства задач
- Оптимизация кеширования DeepSeek
- Пороги для пересмотра конфигурации
- Оговорки и ограничения
- Заключение
Актуальные цены и бенчмарки (OpenRouter, июнь 2026)
Цена за запрос рассчитана для среднего профиля: 10 000 токенов вход / 2 000 токенов выход — типичный запрос на рефакторинг или генерацию модуля.
| Модель | Вход $/1M | Выход $/1M | $/запрос | SWE-bench | Vision API | Кеширование |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | $0.09 | $0.18 | $0.0013 | ~79% Verified | ❌ text-only | Авто, попадание $0.0028/1M |
| MiMo-V2.5 base | $0.14 | $0.28 | $0.0020 | — | ✅ фото+видео+аудио | Да, hit ~$0.20/1M |
| MiniMax M3 | $0.30 (промо) | $1.20 (промо) | $0.0054 промо / $0.0240 стандарт | 59.0% Pro | ✅ фото+видео+компьютер | Sticky routing |
| Qwen3.7 Plus | $0.32 | $1.28 | $0.0058 | — | ✅ фото+GUI+скриншоты UI | Да, 60–80% |
| DeepSeek V4 Pro | $0.435 | $0.87 | $0.0061 | ~80.6% Verified | ❌ text-only | Авто, попадание $0.0036/1M |
| MiMo-V2.5-Pro | $0.435 | $0.87 | $0.0061 | 78.9% Verified / 57.2% Pro | ✅ уровень Claude Sonnet | Да, hit ~$0.20/1M |
| Qwen3.7 Max | $1.25 | $3.75 | $0.0200 | ~80.4% Verified | ❌ | Да, 60–80% |
| Gemini 2.5 Pro | $1.25 | $10.00 | $0.0325 | ~63–67% Verified | ✅ | Implicit, 0.25x |
| GPT-4.1 | $2.00 | $8.00 | $0.0360 | 54.6% Verified | ✅ | Авто |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.0600 | ~79.6% Verified | ✅ | Explicit, 0.1x чтение |
| Claude Opus 4.8 | $5.00 | $25.00 | $0.1000 | ~88.6% Verified / 69.2% Pro | ✅ | Explicit, 0.1x чтение |
Как считается $/запрос: (цена_вход × 10 + цена_выход × 2) / 1 000 000. Профиль 10K/2K соответствует типичному запросу в Kilo Code: системный промпт + контекст файла + инструкция → сгенерированный модуль или рефакторинг функции. Для лёгких правок (2K/500) делите на ~5, для агентной сессии (50K/5K) — умножайте на ~6.
DeepSeek V4 Pro и Flash — text-only API. Официальная документация DeepSeek прямо указывает: модели принимают только текстовый ввод. Vision доступен исключительно в веб-интерфейсе chat.deepseek.com — через API изображения не передаются. Для задач с изображениями используйте MiniMax M3, MiMo-V2.5-Pro, Qwen3.7 Plus или MiMo-V2.5 base.
Цена DeepSeek V4 Pro $0.435/$0.87 зафиксирована с 22 мая 2026 (ранее — промо -75%). Цена MiniMax M3 $0.30/$1.20 — временная акция, стандартная $0.60/$2.40 ($0.0240/запрос). MiMo-V2.5 через прямой API Xiaomi обходится дороже ($1.00/$3.00), чем через OpenRouter.
Какую модель выбрать для работы со скриншотами ошибок
Сценарий «скинул скриншот с ошибкой → агент правит код» требует одновременно качественного vision и сильного агентного кодинга. Сравнение актуальных вариантов:
| Модель | $/запрос | SWE-bench Pro | Vision | Когда использовать |
|---|---|---|---|---|
| MiMo-V2.5 base | $0.0020 | — | фото+видео+аудио | Чтение документации, визуальный QA — не для дебаггинга |
| MiniMax M3 | $0.0054 (промо) | 59.0% | фото+видео+компьютер | Лучший по цена/качество пока действует промо |
| Qwen3.7 Plus | $0.0058 | — | фото+GUI | Оптимум для скриншотов UI и дебаггинга после окончания промо M3 |
| MiMo-V2.5-Pro | $0.0061 | 57.2% | уровень Sonnet | Единая модель для кодинга + vision, стабильная цена |
| Claude Sonnet 4.6 | $0.0600 | — | нативный reasoning | Когда остальные дают поверхностные фиксы |
MiniMax M3: промо-ловушка. На промо-цене $0.0054/запрос — лучшее соотношение цена/качество среди мультимодальных моделей для кодинга. После окончания акции стандартная цена $0.0240/запрос делает его в 4 раза дороже MiMo-V2.5-Pro при схожем SWE-bench Pro (59.0% vs 57.2%). Рекомендуется активно использовать сейчас и подготовить fallback на MiMo-V2.5-Pro или Qwen3.7 Plus.
MiniMax M3 — нативная мультимодальность с нуля. В отличие от моделей с прикрученным vision-стеком, M3 обучался на интерливеных последовательностях текста и изображений. Это позволяет переводить визуальные элементы — диаграммы, координатные карты, скриншоты с трассировками — в структурный код без потери контекста. BrowseComp 83.5 — выше Claude Opus 4.7 (79.3) на автономном браузинге.
MiMo-V2.5 base vs Pro — принципиальная разница: base — омнимодальная модель общего назначения, где код лишь одна из задач. Pro — флагман для агентного кодинга с vision на уровне Sonnet и SWE-bench Pro 57.2%. Лимит выхода base на ряде провайдеров — 8K токенов. Для дебаггинга через скриншоты нужен Pro, не base.
В ряде агентных фреймворков MiMo-V2.5 base некорректно определяется как модель без поддержки изображений и возвращает ошибку «Image input not supported». Перед использованием проверяйте совместимость vision в конкретном инструменте.
Почему кеширование DeepSeek меняет экономику агентного кодинга
В Kilo Code и Cline системный промпт, определения инструментов и контекст файлов повторяются в каждом запросе. DeepSeek применяет автоматическое кеширование без дополнительной настройки: если начало промпта совпадает с предыдущим запросом, совпавшие токены тарифицируются по цене попадания.
- V4 Flash: попадание стоит $0.0028/1M — снижение на 98% относительно полной входной цены.
- V4 Pro: попадание $0.0036/1M (~0.8% от входа).
Нет ни параметра cache_control, ни платы за запись, ни почасового хранения. Сравнение с альтернативами:
- MiMo-V2.5: кеш-попадание до $0.20–0.40/1M — в 50–100 раз дороже DeepSeek.
- Claude: требует явных
cache_control-брейкпойнтов, запись 1.25–2x, чтение 0.1x. Реально — около 39% попаданий при типичной сессии, остальное тарифицируется по полной.
При активном кешировании реальная цена запроса DeepSeek V4 Flash падает до $0.00003–0.00010 на повторяющемся контексте — это меняет сравнение с Claude не на порядок, а на два.
Для максимизации попаданий кеша DeepSeek: размещайте статический контент (системный промпт, определения инструментов) в начало, переменный (имена файлов, текущий diff) — в конец промпта. Это снижает реальный счёт на 60–90% при длинных сессиях.
Разбор конкретных моделей
DeepSeek V4 Pro — основной рабочий инструмент
Архитектура MoE: 1.6T параметров, 49B активных, контекст 1M токенов. Показатель ~80.6% на SWE-bench Verified — на уровне Claude Opus 4.6 при цене $0.0061 за запрос против $0.10 у Opus 4.8. Лидирует среди open-weight моделей по LiveCodeBench (93.5) и Codeforces (3206 рейтинг). Только текстовый ввод — изображения через API не поддерживаются.
DeepSeek V4 демонстрирует высокий показатель галлюцинаций (~94% по Artificial Analysis Omniscience): при отсутствии ответа модель почти всегда генерирует что-то правдоподобное. Пошаговый ревью каждого изменения — обязателен.
DeepSeek V4 Flash — дешёвый драйвер для рутины
~79% SWE-bench Verified, быстрее всех версий Opus по времени на задачу (~165 с). Цена запроса $0.0013 — в 46 раз дешевле Claude Sonnet 4.6 при сопоставимом SWE-bench. В тесте Kilo первый проход backend-проекта обошёлся в $0.02. Режим thinking включён по умолчанию — для простых задач его стоит отключать: токены рассуждений тарифицируются как дорогой выход.
Конфигурация в Kilo Code для рутинных операций (правки, тесты, чтение файлов):
model: deepseek/deepseek-v4-flash
thinking: false
temperature: 0.0
MiniMax M3 — лучший по цена/качество для vision-кодинга пока действует промо
Релиз 1 июня 2026. Архитектура MiniMax Sparse Attention (MSA): 9.7x ускорение prefill и 15.6x ускорение decode на 1M токенах по сравнению с предыдущим поколением. Нативно мультимодальная система — обучена на интерливеных данных текста и изображений с нуля, а не текстовая модель с прикрученным vision.
Бенчмарки: SWE-bench Pro 59.0% (выше GPT-5.5 при 58.6%), Terminal-Bench 2.1 66.0%, BrowseComp 83.5 (выше Claude Opus 4.7). Поддерживает текст, изображения, видео и управление компьютером в едином пайплайне.
На промо-цене $0.0054/запрос MiniMax M3 — лучшее соотношение цена/качество для сценария «скриншот ошибки → дебаггинг» среди всех доступных моделей. SWE-bench Pro 59.0% при нативной мультимодальности и цене ниже MiMo-V2.5-Pro делает его приоритетным выбором до окончания акции.
После окончания промо стандартная цена $0.60/$2.40 ($0.0240/запрос) — в 4 раза дороже MiMo-V2.5-Pro при схожем SWE-bench Pro. Бенчмарки вендорские; сравнение в официальных материалах MiniMax использует Opus 4.7, а не актуальный Opus 4.8, что завышает относительный результат M3. Открытые веса обещаны в течение 10 дней после релиза — на момент публикации статьи ещё не подтверждены на Hugging Face.
Qwen3.7 Plus — стабильный оптимум после окончания промо M3
Построен на backbone Qwen3.7-Max с добавленным vision-стеком: читает скриншоты интерфейсов, локализует элементы UI, понимает контекст ошибки и генерирует патч в едином агентном цикле. ScreenSpot Pro 79.0 — верхний диапазон среди всех моделей. Terminal-Bench 2.0 70.3. Цена $0.0058/запрос стабильна в отличие от промо M3.
MiMo-V2.5 base — омнимодальная модель для простых visual-задач
Xiaomi MoE: 310B параметров / 15B активных, MIT-лицензия. Поддерживает фото, видео и аудио. Цена $0.0020/запрос — самая низкая среди моделей с vision API. Подходит для чтения документации, сравнения UI со спеками и визуального QA. Для дебаггинга через скриншоты ошибок не оптимальна: кодинг не является основным фокусом модели, лимит выхода 8K токенов на ряде провайдеров.
MiMo-V2.5-Pro — надёжный fallback после окончания промо MiniMax M3
1.02T параметров, 42B активных. SWE-bench Verified 78.9%, SWE-bench Pro 57.2%, Terminal-Bench 2.0 68.4. Та же цена запроса, что у DeepSeek V4 Pro ($0.0061), но с подтверждённым vision на уровне Claude Sonnet и расходом на 40–60% меньше токенов на траекторию. Стабильная цена без зависимости от промо-акций.
Часть агентных фреймворков некорректно передаёт reasoning_content в multi-turn tool calls. Kilo Code обрабатывает это правильно; в других инструментах — проверяйте.
Qwen3.7 Max — резервная альтернатива DeepSeek V4 Pro
~80.4% SWE-bench Verified, контекст 1M токенов, кеширование 60–80%. Цена запроса $0.0200 — в 3.3 раза дороже DeepSeek V4 Pro при практически идентичном SWE-bench. Vision не поддерживается. Рассматривается как диверсификация или резерв при недоступности DeepSeek.
Claude Sonnet 4.6 и Opus 4.8 — потолок качества
Sonnet 4.6 (~79.6% SWE-bench Verified) стоит $0.0600 за запрос. Vision интегрирован нативно в reasoning-пайплайн: при передаче скриншота ошибки вместе с кодом модель корректно идентифицирует корневую причину, а не применяет поверхностный фикс. Opus 4.8 (~88.6% Verified, 69.2% Pro, $0.1000/запрос) оправдан для координационных задач, где другие модели зацикливаются.
GPT-4.1 — устаревшая опция
SWE-bench Verified 54.6% при цене $0.0360 за запрос — заметно слабее конкурентов при более высокой стоимости. Не рекомендуется как основная модель в 2026.
Рекомендуемые связки моделей
Базовая конфигурация для большинства задач
Настройка fallback-цепочки в OpenRouter:
{
"models": [
"deepseek/deepseek-v4-flash",
"deepseek/deepseek-v4-pro",
"anthropic/claude-sonnet-4-6"
],
"route": "fallback"
}
Распределение по режимам Kilo Code:
- Code / Architect (по умолчанию):
deepseek/deepseek-v4-pro— $0.0061/запрос - Простые правки, тесты, чтение файлов:
deepseek/deepseek-v4-flashс отключённым thinking — $0.0013/запрос - Скриншот ошибки → дебаггинг (пока действует промо):
minimax/minimax-m3— $0.0054/запрос - Скриншот ошибки → дебаггинг (после промо, приоритет GUI):
qwen/qwen3.7-plus— $0.0058/запрос - Скриншот ошибки → дебаггинг (после промо, единая модель кодинг+vision):
xiaomi/mimo-v2.5-pro— $0.0061/запрос - Простое чтение изображений, документация:
xiaomi/mimo-v2.5— $0.0020/запрос - Сложные координационные задачи:
anthropic/claude-sonnet-4-6($0.0600) →anthropic/claude-opus-4-8($0.1000)
Оптимизация кеширования DeepSeek
Структура системного промпта для максимизации cache hit rate:
# Статический блок (начало) — кешируется
SYSTEM_PROMPT="You are a senior software engineer..."
TOOL_DEFINITIONS="..."
PROJECT_CONTEXT="..."
# Динамический блок (конец) — не кешируется
CURRENT_FILE="src/api/handler.go"
CURRENT_DIFF="..."
Пороги для пересмотра конфигурации
Когда переключаться?
— MiniMax M3 перешёл на стандартную цену $0.0240/запрос → переключайтесь на MiMo-V2.5-Pro ($0.0061) или Qwen3.7 Plus ($0.0058) для vision-задач.
— DeepSeek V4 Pro регулярно зацикливается на координационных задачах → увеличивайте долю Claude Sonnet ($0.0600/запрос).
— Месячный счёт >$70–100 при высокой доле простых задач → больше трафика на V4 Flash ($0.0013/запрос).
— Qwen3.7 Plus систематически даёт поверхностные фиксы → переключайтесь на MiMo-V2.5-Pro или Claude Sonnet.
— DeepSeek официально откроет vision API → пересмотрите раздел мультимодальности: при цене $0.0013–0.0061/запрос это изменит расстановку сил.
Оговорки и ограничения
Бенчмарки вендорские и потенциально загрязнённые. Числа MiniMax, MiMo, GLM — самоотчёт. Независимые харнессы стабильно дают на 4–8 пунктов ниже. MiniMax сравнивал M3 с Opus 4.7, а не с актуальным Opus 4.8 — разрыв с текущим потолком шире, чем в официальных материалах. Прогоняйте финалистов на собственном наборе задач перед внедрением в production-пайплайн.
Геополитический риск. Claude Fable 5 / Mythos отключались в июне 2026 из-за экспортного предписания. Держите рабочий fallback. Китайские модели — отдельный вопрос для compliance-чувствительных команд.
- Harness важнее модели. На Terminal-Bench 2.0 один LLM может колебаться на 30–50 пунктов в зависимости от обвязки.
- Цены волатильны. $0.30/$1.20 у MiniMax M3 — промо-акция без объявленной даты окончания. MiMo-V2.5 через прямой API Xiaomi дороже, чем через OpenRouter.
- MiMo-V2.5 и MiniMax M3 — свежие модели. Инфраструктура хостинга вне Китая ещё созревает; совместимость vision в агентных фреймворках требует проверки.
Заключение
В июне 2026 оптимальная стратегия для агентного кодинга в Kilo Code и Cline строится на трёхуровневой связке: DeepSeek V4 Flash ($0.0013/запрос) для рутины, DeepSeek V4 Pro ($0.0061/запрос) как основная текстовая модель, и выбор vision-модели под текущую ситуацию — MiniMax M3 ($0.0054) пока действует промо, затем Qwen3.7 Plus ($0.0058) для GUI-дебаггинга или MiMo-V2.5-Pro ($0.0061) как единая стабильная модель для кодинга и vision; эскалация на Claude Sonnet 4.6 ($0.0600) оправдана только там, где требуется глубокий анализ корневых причин и качество важнее стоимости.









