Сравнение Claude Opus 4.8 и GPT-5.5: реальный тест на продакшн-код
Ключевые тезисы:
- Вышла новая модель Claude Opus 4.8 с улучшенными бенчмарками и новыми функциями (мультиагентный режим, workflow).
- Практический тест на реальной бизнес-задаче (адаптация AI-бота для агентства недвижимости) показал противоречивые результаты.
- GPT-5.5 точнее следует промту и создаёт более функциональную админ-панель, но требует больше токенов (лимиты урезаны).
- Opus 4.8 справился с задачей за один подход, но сильно отошёл от исходного шаблона, ухудшив некоторые функции.
- Идеальный стек на май 2026 года — комбинация обеих моделей, но, вероятно, уже на тарифах по $100.
Теоретическая часть: что нового в Opus 4.8?
- Цены: Остались прежними: $5 за млн входных и $25 за млн выходных токенов. Появился Fast Mode (в 3 раза дешевле, чем у 4.7).
- Режимы работы: Помимо уровня High, появились Max и Ultra для максимальной производительности.
- Бенчмарки (основные):
- Terminal Bench 2.1 (работа в терминале): Opus 4.8 (74.6) улучшил результат, но всё ещё позади GPT-5.5 (78.2).
- SWE Bench Pro (программирование, фиксы багов): Opus 4.8 (69) против 4.7 (64) — значительный прогресс.
- Computer Use (работа через браузер): Opus 4.8 (83.4%) — лидер в категории.
- Super Agent Benchmark (длинные бизнес-цепочки): Opus 4.8 на уровне GPT-5.5.
Ключевое улучшение: Честность модели. Заявлено, что Opus 4.8 в 4 раза реже пропускает баги и честнее признаётся, если не справился с задачей, что экономит часы дебага.- Новые функции API: Системные инструкции теперь можно обновлять в процессе диалога (как у OpenAI), что удобно для агентских цепочек.
Новая фича: мультиагентный режим (Workflow)
- Суть: Раньше Claude работал как один агент. Теперь для сложных задач он сам пишет скрипт на JavaScript, разбивает задачу на части и запускает до 16 субагентов параллельно (до 1000 за сессию).
- Активация: Добавить слово
workflowв промт или командуeffort Ultra. - Сравнение с Cursor (Codex): У Cursor максимум 6 субагентов, нет оркестрации workflow, нельзя сохранять и переиспользовать сценарии.
Практический тест: AI-бот для недвижимости
Задача: Адаптировать готовый продакшн-стартеркит (7600 строк кода, 47 файлов) под агентство недвижимости, не трогая ядро.
Методология: Один промт для обеих моделей. Тестирование функциональности и перекрёстный code review по 8 критериям.
Результаты выполнения задачи
GPT-5.5 (Codex):
Точно следовал промту, минимально изменив стартеркит.
Админ-панель и виджет получились функциональными и логичными (работают блокировки, перехват диалогов, выгрузка лидов).
Потребил все лимиты подписки за $20, пришлось докупать кредиты. Лимиты ощутимо урезаны.
Мелкий баг в статистике (некорректный вывод числа "горячих лидов").
Claude Opus 4.8:
Справился за один подход, не запрашивая доп. действий.
Лучший визуал и UX: создал целый лендинг, добавил подтверждения для опасных действий (например, блокировки).
Сильно отошёл от шаблона, ухудшив ключевую функциональность: неработающая блокировка пользователя, нельзя открыть загруженные документы в базе знаний.
Медленнее в генерации ответов в готовом виджете.
Результаты перекрёстного Code Review
| Критерий | Opus 4.8 оценил свой код | GPT-5.5 оценил код Opus | GPT-5.5 оценил свой код | Opus 4.8 оценил код GPT |
|---|---|---|---|---|
| Итоговый балл | 60/80 | 45/80 | 50/80 | 56/80 |
| Ключевой вывод | Крепкая, безопасная основа. Минусы: падающие тесты, баг в конфигурации. | Код "сырой", проблемы с продакшн-готовностью и тестами. | Рабочий, но "сшит на скорую руку" кандидат в продакшн. | Реальный работающий продукт на крепком ядре. Чистый код. |
Вывод по оценкам: GPT-5.5 остаётся более строгим и критичным оценщиком как своего, так и чужого кода. Opus 4.8 оценивает более лояльно.
Идеальный стек инструментов на май 2026 года
- Прошлая рекомендация (ChatGPT $20 + Claude $100) устарела из-за урезания лимитов у OpenAI.
- Текущая ситуация: Для серьёзной разработки, скорее всего, понадобятся тарифы по $100 в обеих экосистемах.
- Claude Code ($100): Силён в мультиагентном режиме (workflow) и имеет Code Review Ultra. Подходит для крупных проектов с большими лимитами.
- ChatGPT/Codex ($100): Точнее следует инструкциям, даёт более жёсткий и полезный code review.
Итоговый вердикт: Нет однозначного победителя. Лучшая стратегия — использовать обе модели в связке, переключаясь между ними в зависимости от задачи.- Opus 4.8 — для быстрого прототипирования, сложных параллельных задач и workflow.
- GPT-5.5 — для точной реализации по ТЗ, строгого код-ревью и задач, требующих дословного следования промту.