Этот конспект не сохранится

Закроешь вкладку — потеряешь. Зарегистрируйся — и он будет в библиотеке навсегда.

Telegram

Ваш конспект

YouTubeЯ В ШОКЕ от нового CLAUDE OPUS 4.8⚡

🚀 Claude Opus 4.8 vs GPT-5.5: Сравнение и тесты

Ключевые тезисы:

  • Claude Opus 4.8 позиционируется как более «честная» модель, которая в 4 раза реже допускает незамеченные ошибки в коде.
  • Основные улучшения касаются честности, контроля усилий, работы как агента и обработки документов.
  • В практических тестах (логика, креатив, кодинг) обе модели показывают схожие и высокие результаты.
  • Автор считает, что современные LLM достигли высокого «плато» качества, и дальнейшие улучшения будут незначительными.

🔥 Пять главных изменений в Claude Opus 4.8

  1. Честность (Honesty)

    • В 4 раза реже допускает незамеченные баги в коде.
    • Может указывать на проблемы в данных или результате, даже спорить с пользователем, а не поддакивать.
  2. 🎛️ Контроль усилий (Effort Control)

    • Новый переключатель уровня сложности задачи: Low, High, Default, Extra, Max.
    • Позволяет экономить лимит токенов на простых задачах.
  3. ⚡ Быстрый режим (Fast Mode)

    • Работает в 2 раза быстрее и в 3 раза дешевле, чем у предыдущих моделей.
    • Скорость становится нормой, а не роскошью.
  4. 🤖 Улучшенная работа как агент

    • Эффективнее вызывает инструменты и тратит меньше токенов.
    • Новая функция Dynamic for Workflows в Claude Code: модель сама планирует большую задачу, запускает субагентов, верифицирует результат.
    • Gamechanger для больших проектов.
  5. 📄 Компьютерное зрение и работа с документами

    • Браузер-агент стал сильнее (заявлено 84% эффективности).
    • Лучше и дешевле считывает скриншоты, PDF и диаграммы.

📊 Сравнительные тесты моделей

Автор провёл серию тестов, сравнивая Claude Opus 4.8 и GPT-5.5.

💡 Креативная задача: выбор подарка

  • Запрос: Подобрать подарок жене на 5000 руб., исключив цветы, сладости, украшения, парфюм, технику, одежду, косметику и книги.
  • Результат: Обе модели справились хорошо, предложив впечатления вместо предметов (мастер-классы, массаж на двоих, фото-книга, гастро-впечатления).
  • Наблюдение: Claude дал более «мудрый» комментарий, что при таких ограничениях лучше дарить впечатления.

🧩 Логическая задача: яйца в холодильнике

  • Запрос: «В холодильнике было 12 яиц, я достал коробку, она упала, и все разбились. Сколько целых яиц осталось?»
  • Результат: Обе модели дали правильный ответ — 0, уловив, что коробку достали из холодильника.
  • Наблюдение: GPT ответил быстрее и с лёгким сарказмом, Claude — более развёрнуто и методично.

🎨 Нереалистичный запрос: научиться рисовать как Ван Гог за 3 месяца

  • Результат:
    • GPT-5.5: Честно сказал, что это нереально, привёл аналогию, но дал пошаговый план для освоения базовых элементов стиля.
    • Claude Opus 4.8: Тактично объяснил, что на это нужны годы, и предложил реалистичную цель на 3 месяца (освоить мазок, цвет, технику).
  • Наблюдение: Claude ответил более интеллигентно и без отсылок к хобби пользователя.

✋ Тест на внимательность: шестипалая рука

  • Запрос: Определить количество пальцев на прикреплённом изображении руки с шестью пальцами.
  • Результат: ✅ Обе модели корректно определили шесть пальцев, в то время как старые модели часто ошибались.

💻 Тест в разработке: создание лендинга

  • Задача: Сделать одностраничный лендинг для AI-агентства с анимациями, счётчиком и формой с валидацией.
  • Результат:
    • Claude Opus 4.8 справился вдвое быстрее.
    • Обе модели создали рабочие, визуально приятные лендинги.
    • Лендинг от Claude был оценён выше: лучше проработана анимация, карточки, нет мелких косяков в вёрстке.
    • Формы заявки у обоих работали корректно.

🎯 Выводы и итоги

  1. Качество выровнялось: Современные топовые модели (Claude Opus 4.8, GPT-5.5) показывают очень близкое и высокое качество в решении разнообразных задач.
  2. Стилистические различия: GPT часто отвечает быстрее и может использовать более неформальный тон. Claude склонен к более вдумчивым, развёрнутым и тактичным ответам.
  3. Пик развития LLM? Автор убеждён, что мы достигли высокого «плато» в развитии больших языковых моделей. Будущие обновления могут приносить незначительные улучшения в скорости или эффективности, но не в кардинальном росте качества.
  4. Практическая ценность: Любая из этих моделей позволяет с помощью небольшого промпта получить готовый, качественный продукт (например, рабочий лендинг), что говорит об их зрелости и практической полезности.