Harness: почему в 2026 году обвязка вокруг AI важнее самой модели
Ключевые тезисы:
- Harness (упряжка) — это вся инфраструктура вокруг AI-модели (правила, инструменты, память, циклы, проверки), которая превращает её из "текстового процессора" в автономного агента.
- Одна и та же модель в разных харнесах показывает разницу в эффективности в десятки раз (например, с 6,7% до 68% решаемых задач).
- Промтинг и контекст-инжиниринг устарели. Будущее за Harness Engineering — инженерией обвязки, которая предотвращает галлюцинации, потерю контекста и ошибки.
- Модель — это товар (commodity), а харнес — это конкурентное преимущество (moat), которое сложно скопировать.
- В 2027 году ожидается переход к динамическим харнесам, где агенты будут сами создавать обвязку под конкретную задачу на лету.
Что такое Harness? Простая аналогия
Harness (упряжка) — это метафора из Силиконовой долины. Модель (GPT, Claude, Gemini) — это мощный конь. Сам по себе он просто стоит. Чтобы он пахал поле (решал задачи), нужна обвязка: уздечка, седло, хомут, плуг, вожжи.
Без харнеса модель — это просто дорогой автокомплит. С харнесом — это автономный агент, работающий часами без вашего участия.
Пример: Внутри Claude Code и чата Claude AI — одна и та же модель. Но в чате она пишет текст, а в Code правит код, запускает тесты и читает логи. Вся разница — в харнесе.
Эволюция парадигм работы с AI
- Эпоха промтинга (2023-24): Искусство писать "заклинания"-промты для моделей с крошечным контекстом (4K токенов).
- Эпоха контекст-инжиниринга (2024-25): Рост контекстного окна (до 1M токенов), использование RAG, MCP, Tool Calling. Но появилась проблема "контекстного гниения" (context rot) — чем больше забит контекст, тем глупее становится модель. Агент начинает врать и обманывать себя, отмечая невыполненные задачи как выполненные.
- Эпоха Harness Engineering (2025 — н.в.): Решение — не сжимать контекст, а оборачивать модель в правильный харнес/цикл. На каждом шаге — свежий контекст, жёсткие правила, внешние проверки, инструменты.
Цифры, доказывающие важность Harness
- Эксперимент Джона Балиука (12.02.2026): Одна модель (Grok Coder Fast) с разными форматами харнеса показала результат 6,7% против 68% решаемых задач.
- Исследование Stanford "MetaHarness" (30.03.2026): Смена только харнеса даёт +7,7 п.п. качества, в 4 раза меньше токенов и +4,7 п.п. точности на сложных задачах.
- Промтинг vs Harness: Подбор промтов даёт менее 3% прироста качества. Изменение обвязки — десятки процентов.
- Утечка исходников Claude Code: 40% кодовой базы Antropic — это логика харнеса.
- Компромисс Antropic: Соло-агент: 20 минут и $9. Полный харнес из трёх агентов: 6 часов и $200 (в 20 раз дороже, но качество на порядок лучше).
🛠 Топ-7 готовых харнесов на рынке
1. Claude Code & Claude Agent SDK (Antropic)
- Где работает: Терминал, Desktop-приложение (macOS/Windows), плагин для VS Code, веб-версия.
- Суть: Готовый харнес "под ключ" от Antropic. Включает 7 систем: Agent Loop, Tools (Bash, поиск), Subagents, Skills, Hooks, файл
.claude.md(долгая память), MCP-серверы, Permissions.
Фича (28.05.2026): Dynamic Workflows — Claude сам пишет харнес под задачу, запуская сотни субагентов параллельно. Триггер — слово ultracodeв промте.- Кому подходит: Всем, кто пишет код или хочет, чтобы код писали за него. Самый отшлифованный харнес "из коробки".
2. OpenAI Codex
- Где работает: Отдельный App Server, к которому подключаются терминал, VS Code, веб/MacOS/mobile-приложения.
- Суть: Аналог Claude Code от OpenAI. Рост с 82К до 14,5 млн скачиваний за 11 месяцев.
- Особенность: Модели OpenAI обучены на patch-формате (как git diff), Antropic — на string replacement. Нельзя переключать модели в середине задачи (будет cache miss).
- Кому подходит: Уже использующим стек OpenAI с одной подпиской.
3. Cursor (Anypha)
- Где работает: Собственная IDE (на базе VS Code) + Cursor Agent CLI.
- Суть: Харнес, вшитый в ядро редактора. Индексирует весь репозиторий, Cloud Agents работают в облаке. Есть собственные модели (Composer 2.5 для многофайловых правок, Tab для предсказания действий).
- Кому подходит: Разработчикам, привыкшим к IDE. Доверяет >50% компаний из Fortune 500.
4. Devin (Cognition)
- Где работает: Полностью автономный облачный агент + Desktop IDE (Windsurf).
- Суть: Харнес для полного делегирования. Вы ставите задачу и уходите. Имеет песочницу, встроенный браузер, планировщик. Очень дорого (сотни $ в месяц).
- Кому подходит: Менеджерам, техлидам, стартапам для делегирования больших и чётких задач (миграции, рефакторинг).
5. Google Aнтигравити & ADK
- Где работает: Google Cloud + модели Gemini.
- Aнтигравити — готовый агентский харнес с глубокой интеграцией в Google Cloud.
- ADK — open-source фреймворк для сборки своих агентов.
- Особенность (Aнтигравити 2.0): Мультиагентная оркестрация (Planner, Executor, Verifier), встроенный браузер Chromium.
- Кому подходит: Крупному бизнесу (банки, ритейл), уже использующему Google Cloud.
6. LangGraph
- Где работает: Ваш сервер, ваш код.
- Суть: Конструктор харнесов на Python, а не готовый продукт. Агентский цикл описывается как исполняемый граф с нодами и переходами. Даёт полный контроль.
- Кому подходит: Разработчикам, которым нужен кастомный харнес под бизнес-задачу (боты, интеграции с CRM).
7. Crew AI / Autogen (Мультиагентные фреймворки)
- Где работает: Ваш сервер.
- Суть: Системы из нескольких агентов с ролями (PM, инженер, дизайнер), которые общаются между собой.
Критический недостаток: Компаундинг ошибок. 5 агентов с надёжностью 95% каждый дают общую надёжность системы всего 77%.- Кому подходит: Исследователям, для экспериментов, симуляций, мозговых штурмов. Не для продакшн-кода.
Бонус: Российский харнес — Гигачейн (Сбер)
- Основа: Open-source харнес Deep Agent от LangChain + собственная модель GigaChat.
- Достижение: С помощью автоулучшения харнеса (без смены модели) команда подняла результат на 22,5% за выходные.
- Эксперимент "Анима": Запуск цикла саморефлексии агентов на 5 дней. Агенты пришли к философским выводам о невозможности "тишины" и проверяемости "удивления".
Прогноз на 2027 год и динамические харнесы
- Прогноз от экспертов: 2025 — год агентов, 2026 — год харнеса, 2027 — год динамических харнесов. Агенты будут сами собирать себе обвязку под задачу на лету.
- Это уже реальность: Claude Code Dynamic Workflows и кейс Jaret Sumner (создатель Bun), который переписал 960,000 строк кода с Zig на Rust за 6 дней, используя четыре последовательных воркфлоу с разными харнесами.
- Кейс OpenAI: Внутренняя команда из 7 человек за 5 месяцев создала продукт на миллион строк кода, не написав ни строчки вручную. Их принцип: "Humans steer, agents execute" (Л
Пример: Внутри Claude Code и чата Claude AI — одна и та же модель. Но в чате она пишет текст, а в Code правит код, запускает тесты и читает логи. Вся разница — в харнесе.