🤖 Harness: почему обвязка вокруг AI важнее самой модели

Harness: почему в 2026 году обвязка вокруг AI важнее самой модели

Ключевые тезисы:

Harness (упряжка) — это вся инфраструктура вокруг AI-модели (правила, инструменты, память, циклы, проверки), которая превращает её из "текстового процессора" в автономного агента.
Одна и та же модель в разных харнесах показывает разницу в эффективности в десятки раз (например, с 6,7% до 68% решаемых задач).
Промтинг и контекст-инжиниринг устарели. Будущее за Harness Engineering — инженерией обвязки, которая предотвращает галлюцинации, потерю контекста и ошибки.
Модель — это товар (commodity), а харнес — это конкурентное преимущество (moat), которое сложно скопировать.
В 2027 году ожидается переход к динамическим харнесам, где агенты будут сами создавать обвязку под конкретную задачу на лету.

Что такое Harness? Простая аналогия

Harness (упряжка) — это метафора из Силиконовой долины. Модель (GPT, Claude, Gemini) — это мощный конь. Сам по себе он просто стоит. Чтобы он пахал поле (решал задачи), нужна обвязка: уздечка, седло, хомут, плуг, вожжи.

Без харнеса модель — это просто дорогой автокомплит. С харнесом — это автономный агент, работающий часами без вашего участия.

Пример: Внутри Claude Code и чата Claude AI — одна и та же модель. Но в чате она пишет текст, а в Code правит код, запускает тесты и читает логи. Вся разница — в харнесе.

Эволюция парадигм работы с AI

Эпоха промтинга (2023-24): Искусство писать "заклинания"-промты для моделей с крошечным контекстом (4K токенов).
Эпоха контекст-инжиниринга (2024-25): Рост контекстного окна (до 1M токенов), использование RAG, MCP, Tool Calling. Но появилась проблема "контекстного гниения" (context rot) — чем больше забит контекст, тем глупее становится модель. Агент начинает врать и обманывать себя, отмечая невыполненные задачи как выполненные.
Эпоха Harness Engineering (2025 — н.в.): Решение — не сжимать контекст, а оборачивать модель в правильный харнес/цикл. На каждом шаге — свежий контекст, жёсткие правила, внешние проверки, инструменты.

Цифры, доказывающие важность Harness

Эксперимент Джона Балиука (12.02.2026): Одна модель (Grok Coder Fast) с разными форматами харнеса показала результат 6,7% против 68% решаемых задач.
Исследование Stanford "MetaHarness" (30.03.2026): Смена только харнеса даёт +7,7 п.п. качества, в 4 раза меньше токенов и +4,7 п.п. точности на сложных задачах.
Промтинг vs Harness: Подбор промтов даёт менее 3% прироста качества. Изменение обвязки — десятки процентов.
Утечка исходников Claude Code: 40% кодовой базы Antropic — это логика харнеса.
Компромисс Antropic: Соло-агент: 20 минут и $9. Полный харнес из трёх агентов: 6 часов и $200 (в 20 раз дороже, но качество на порядок лучше).

🛠 Топ-7 готовых харнесов на рынке

1. Claude Code & Claude Agent SDK (Antropic)

Где работает: Терминал, Desktop-приложение (macOS/Windows), плагин для VS Code, веб-версия.
Суть: Готовый харнес "под ключ" от Antropic. Включает 7 систем: Agent Loop, Tools (Bash, поиск), Subagents, Skills, Hooks, файл .claude.md (долгая память), MCP-серверы, Permissions.
Фича (28.05.2026): Dynamic Workflows — Claude сам пишет харнес под задачу, запуская сотни субагентов параллельно. Триггер — слово ultracode в промте.
Кому подходит: Всем, кто пишет код или хочет, чтобы код писали за него. Самый отшлифованный харнес "из коробки".

2. OpenAI Codex

Где работает: Отдельный App Server, к которому подключаются терминал, VS Code, веб/MacOS/mobile-приложения.
Суть: Аналог Claude Code от OpenAI. Рост с 82К до 14,5 млн скачиваний за 11 месяцев.
Особенность: Модели OpenAI обучены на patch-формате (как git diff), Antropic — на string replacement. Нельзя переключать модели в середине задачи (будет cache miss).
Кому подходит: Уже использующим стек OpenAI с одной подпиской.

3. Cursor (Anypha)

Где работает: Собственная IDE (на базе VS Code) + Cursor Agent CLI.
Суть: Харнес, вшитый в ядро редактора. Индексирует весь репозиторий, Cloud Agents работают в облаке. Есть собственные модели (Composer 2.5 для многофайловых правок, Tab для предсказания действий).
Кому подходит: Разработчикам, привыкшим к IDE. Доверяет >50% компаний из Fortune 500.

4. Devin (Cognition)

Где работает: Полностью автономный облачный агент + Desktop IDE (Windsurf).
Суть: Харнес для полного делегирования. Вы ставите задачу и уходите. Имеет песочницу, встроенный браузер, планировщик. Очень дорого (сотни $ в месяц).
Кому подходит: Менеджерам, техлидам, стартапам для делегирования больших и чётких задач (миграции, рефакторинг).

5. Google Aнтигравити & ADK

Где работает: Google Cloud + модели Gemini.
- Aнтигравити — готовый агентский харнес с глубокой интеграцией в Google Cloud.
- ADK — open-source фреймворк для сборки своих агентов.
Особенность (Aнтигравити 2.0): Мультиагентная оркестрация (Planner, Executor, Verifier), встроенный браузер Chromium.
Кому подходит: Крупному бизнесу (банки, ритейл), уже использующему Google Cloud.

6. LangGraph

Где работает: Ваш сервер, ваш код.
Суть: Конструктор харнесов на Python, а не готовый продукт. Агентский цикл описывается как исполняемый граф с нодами и переходами. Даёт полный контроль.
Кому подходит: Разработчикам, которым нужен кастомный харнес под бизнес-задачу (боты, интеграции с CRM).

7. Crew AI / Autogen (Мультиагентные фреймворки)

Где работает: Ваш сервер.
Суть: Системы из нескольких агентов с ролями (PM, инженер, дизайнер), которые общаются между собой.
Критический недостаток: Компаундинг ошибок. 5 агентов с надёжностью 95% каждый дают общую надёжность системы всего 77%.
Кому подходит: Исследователям, для экспериментов, симуляций, мозговых штурмов. Не для продакшн-кода.

Бонус: Российский харнес — Гигачейн (Сбер)

Основа: Open-source харнес Deep Agent от LangChain + собственная модель GigaChat.
Достижение: С помощью автоулучшения харнеса (без смены модели) команда подняла результат на 22,5% за выходные.
Эксперимент "Анима": Запуск цикла саморефлексии агентов на 5 дней. Агенты пришли к философским выводам о невозможности "тишины" и проверяемости "удивления".

Прогноз на 2027 год и динамические харнесы

Прогноз от экспертов: 2025 — год агентов, 2026 — год харнеса, 2027 — год динамических харнесов. Агенты будут сами собирать себе обвязку под задачу на лету.
Это уже реальность: Claude Code Dynamic Workflows и кейс Jaret Sumner (создатель Bun), который переписал 960,000 строк кода с Zig на Rust за 6 дней, используя четыре последовательных воркфлоу с разными харнесами.
Кейс OpenAI: Внутренняя команда из 7 человек за 5 месяцев создала продукт на миллион строк кода, не написав ни строчки вручную. Их принцип: "Humans steer, agents execute" (Л