Claude Opus 4.8 vs GPT-5.5: Сравнение и тесты
Ключевые тезисы:
- Claude Opus 4.8 позиционируется как более «честная» модель, которая в 4 раза реже допускает незамеченные ошибки в коде.
- Основные улучшения касаются честности, контроля усилий, работы как агента и обработки документов.
- В практических тестах (логика, креатив, кодинг) обе модели показывают схожие и высокие результаты.
- Автор считает, что современные LLM достигли высокого «плато» качества, и дальнейшие улучшения будут незначительными.
Пять главных изменений в Claude Opus 4.8
Честность (Honesty)
- В 4 раза реже допускает незамеченные баги в коде.
- Может указывать на проблемы в данных или результате, даже спорить с пользователем, а не поддакивать.
Контроль усилий (Effort Control)- Новый переключатель уровня сложности задачи: Low, High, Default, Extra, Max.
- Позволяет экономить лимит токенов на простых задачах.
Быстрый режим (Fast Mode)- Работает в 2 раза быстрее и в 3 раза дешевле, чем у предыдущих моделей.
- Скорость становится нормой, а не роскошью.
Улучшенная работа как агент- Эффективнее вызывает инструменты и тратит меньше токенов.
- Новая функция Dynamic for Workflows в Claude Code: модель сама планирует большую задачу, запускает субагентов, верифицирует результат.
- Gamechanger для больших проектов.
Компьютерное зрение и работа с документами- Браузер-агент стал сильнее (заявлено 84% эффективности).
- Лучше и дешевле считывает скриншоты, PDF и диаграммы.
Сравнительные тесты моделей
Автор провёл серию тестов, сравнивая Claude Opus 4.8 и GPT-5.5.
Креативная задача: выбор подарка
- Запрос: Подобрать подарок жене на 5000 руб., исключив цветы, сладости, украшения, парфюм, технику, одежду, косметику и книги.
- Результат: Обе модели справились хорошо, предложив впечатления вместо предметов (мастер-классы, массаж на двоих, фото-книга, гастро-впечатления).
- Наблюдение: Claude дал более «мудрый» комментарий, что при таких ограничениях лучше дарить впечатления.
Логическая задача: яйца в холодильнике
- Запрос: «В холодильнике было 12 яиц, я достал коробку, она упала, и все разбились. Сколько целых яиц осталось?»
- Результат: Обе модели дали правильный ответ — 0, уловив, что коробку достали из холодильника.
- Наблюдение: GPT ответил быстрее и с лёгким сарказмом, Claude — более развёрнуто и методично.
Нереалистичный запрос: научиться рисовать как Ван Гог за 3 месяца
- Результат:
- GPT-5.5: Честно сказал, что это нереально, привёл аналогию, но дал пошаговый план для освоения базовых элементов стиля.
- Claude Opus 4.8: Тактично объяснил, что на это нужны годы, и предложил реалистичную цель на 3 месяца (освоить мазок, цвет, технику).
- Наблюдение: Claude ответил более интеллигентно и без отсылок к хобби пользователя.
Тест на внимательность: шестипалая рука
- Запрос: Определить количество пальцев на прикреплённом изображении руки с шестью пальцами.
- Результат:
Обе модели корректно определили шесть пальцев, в то время как старые модели часто ошибались.
Тест в разработке: создание лендинга
- Задача: Сделать одностраничный лендинг для AI-агентства с анимациями, счётчиком и формой с валидацией.
- Результат:
- Claude Opus 4.8 справился вдвое быстрее.
- Обе модели создали рабочие, визуально приятные лендинги.
- Лендинг от Claude был оценён выше: лучше проработана анимация, карточки, нет мелких косяков в вёрстке.
- Формы заявки у обоих работали корректно.
Выводы и итоги
- Качество выровнялось: Современные топовые модели (Claude Opus 4.8, GPT-5.5) показывают очень близкое и высокое качество в решении разнообразных задач.
- Стилистические различия: GPT часто отвечает быстрее и может использовать более неформальный тон. Claude склонен к более вдумчивым, развёрнутым и тактичным ответам.
- Пик развития LLM? Автор убеждён, что мы достигли высокого «плато» в развитии больших языковых моделей. Будущие обновления могут приносить незначительные улучшения в скорости или эффективности, но не в кардинальном росте качества.
- Практическая ценность: Любая из этих моделей позволяет с помощью небольшого промпта получить готовый, качественный продукт (например, рабочий лендинг), что говорит об их зрелости и практической полезности.