🤖 Claude Opus 4.8 vs GPT-5.5: Сравнение ИИ-гигантов

Claude Opus 4.8 vs GPT-5.5: Сравнение и тесты

Ключевые тезисы:

Claude Opus 4.8 позиционируется как более «честная» модель, которая в 4 раза реже допускает незамеченные ошибки в коде.
Основные улучшения касаются честности, контроля усилий, работы как агента и обработки документов.
В практических тестах (логика, креатив, кодинг) обе модели показывают схожие и высокие результаты.
Автор считает, что современные LLM достигли высокого «плато» качества, и дальнейшие улучшения будут незначительными.

Пять главных изменений в Claude Opus 4.8

Честность (Honesty)
- В 4 раза реже допускает незамеченные баги в коде.
- Может указывать на проблемы в данных или результате, даже спорить с пользователем, а не поддакивать.
Контроль усилий (Effort Control)
- Новый переключатель уровня сложности задачи: Low, High, Default, Extra, Max.
- Позволяет экономить лимит токенов на простых задачах.
Быстрый режим (Fast Mode)
- Работает в 2 раза быстрее и в 3 раза дешевле, чем у предыдущих моделей.
- Скорость становится нормой, а не роскошью.
Улучшенная работа как агент
- Эффективнее вызывает инструменты и тратит меньше токенов.
- Новая функция Dynamic for Workflows в Claude Code: модель сама планирует большую задачу, запускает субагентов, верифицирует результат.
- Gamechanger для больших проектов.
Компьютерное зрение и работа с документами
- Браузер-агент стал сильнее (заявлено 84% эффективности).
- Лучше и дешевле считывает скриншоты, PDF и диаграммы.

Сравнительные тесты моделей

Автор провёл серию тестов, сравнивая Claude Opus 4.8 и GPT-5.5.

Креативная задача: выбор подарка

Запрос: Подобрать подарок жене на 5000 руб., исключив цветы, сладости, украшения, парфюм, технику, одежду, косметику и книги.
Результат: Обе модели справились хорошо, предложив впечатления вместо предметов (мастер-классы, массаж на двоих, фото-книга, гастро-впечатления).
Наблюдение: Claude дал более «мудрый» комментарий, что при таких ограничениях лучше дарить впечатления.

Логическая задача: яйца в холодильнике

Запрос: «В холодильнике было 12 яиц, я достал коробку, она упала, и все разбились. Сколько целых яиц осталось?»
Результат: Обе модели дали правильный ответ — 0, уловив, что коробку достали из холодильника.
Наблюдение: GPT ответил быстрее и с лёгким сарказмом, Claude — более развёрнуто и методично.

Нереалистичный запрос: научиться рисовать как Ван Гог за 3 месяца

Результат:
- GPT-5.5: Честно сказал, что это нереально, привёл аналогию, но дал пошаговый план для освоения базовых элементов стиля.
- Claude Opus 4.8: Тактично объяснил, что на это нужны годы, и предложил реалистичную цель на 3 месяца (освоить мазок, цвет, технику).
Наблюдение: Claude ответил более интеллигентно и без отсылок к хобби пользователя.

Тест на внимательность: шестипалая рука

Запрос: Определить количество пальцев на прикреплённом изображении руки с шестью пальцами.
Результат: Обе модели корректно определили шесть пальцев, в то время как старые модели часто ошибались.

Тест в разработке: создание лендинга

Задача: Сделать одностраничный лендинг для AI-агентства с анимациями, счётчиком и формой с валидацией.
Результат:
- Claude Opus 4.8 справился вдвое быстрее.
- Обе модели создали рабочие, визуально приятные лендинги.
- Лендинг от Claude был оценён выше: лучше проработана анимация, карточки, нет мелких косяков в вёрстке.
- Формы заявки у обоих работали корректно.

Выводы и итоги

Качество выровнялось: Современные топовые модели (Claude Opus 4.8, GPT-5.5) показывают очень близкое и высокое качество в решении разнообразных задач.
Стилистические различия: GPT часто отвечает быстрее и может использовать более неформальный тон. Claude склонен к более вдумчивым, развёрнутым и тактичным ответам.
Пик развития LLM? Автор убеждён, что мы достигли высокого «плато» в развитии больших языковых моделей. Будущие обновления могут приносить незначительные улучшения в скорости или эффективности, но не в кардинальном росте качества.
Практическая ценность: Любая из этих моделей позволяет с помощью небольшого промпта получить готовый, качественный продукт (например, рабочий лендинг), что говорит об их зрелости и практической полезности.