Этот конспект не сохранится

Закроешь вкладку — потеряешь. Зарегистрируйся — и он будет в библиотеке навсегда.

Telegram

Ваш конспект

YouTubeСравнил ЛУЧШИЕ ИИ и АХ**Л | GPT vs Claude vs Gemini vs GLM vs Kimi | Реально круто получилось

🧪 Сравнение языковых моделей в генерации кода: кто круче?

Ключевые тезисы

  • Тестирование пяти топовых моделей (Kimi 2.6, Gmini 3.1 Pro, GLM 5.1, GPT-4o, Opus 4.7) на создание рабочих проектов по одному промпту.
  • Критерии оценки: субъективный UX/UI, работоспособность функционала и стоимость выполнения (цена API).
  • Для удобства и экономии использовался агрегатор Pольza AI, предоставляющий доступ к 400+ моделям по единому API.
  • Результаты показывают, что дорогие модели не всегда оправдывают свою стоимость, а бюджетные могут быть эффективны для простых задач.

🎯 Методология тестирования

Условия:

  • Каждая модель получает один промпт для создания проекта "с нуля" (без дополнительных навыков или доработок).
  • Разрешен один дополнительный промпт только для отладки, если проект не запускается из-за критических ошибок.
  • Оценка ведется по субъективным, но практичным критериям.

Критерии оценки:

  1. Дизайн (UX/UI) — субъективная оценка внешнего вида, удобства и стиля.
  2. Функционал — работоспособность заявленных функций (работают ли кнопки, логика).
  3. Стоимость — сумма, потраченная на генерацию проекта через API.

📊 Проект 1: Лендинг для таксопарка "Мандаго"

Промпт: Создать сайт для таксопарка с фото владельца в костюме на фоне Maybach, стилем как у Uber, контактными данными и ключевой фразой "Лучшие выплаты только в Манда".

Результаты:

  • Kimi 2.6

    • Дизайн: 6/10 (минималистично, но странные элементы).
    • Функционал: 10/10 (всё работает, форма отправки корректно сохраняет данные в SQL).
    • Итог: Справляется отлично для своей цены.
  • Gmini 3.1 Pro

    • Дизайн: 5/10 (нравится "стиль общения" в текстах, но общее исполнение среднее).
    • Функционал: 10/10 (всё работает, SQL интегрирован).
    • Итог: Хороший функционал, дизайн "на троечку".
  • GLM 5.1

    • Дизайн: 5/10.
    • Функционал: 10/10.
    • Итог: Аналогично Gmini — крепкий "середнячок".
  • GPT-4o

    • Дизайн: 3/10 (скучно, не соответствует запрошенному стилю).
    • Функционал: 10/10.
    • Итог: Провал в дизайне, хотя технически всё в порядке.
  • Opus 4.7

    • Дизайн: 6.5/10 (самый высокий балл, но всё равно кривовато).
    • Функционал: 10/10.
    • Итог: Лучший в дизайне среди всех, но ненамного.

🎖 Победитель в первом проекте: Opus 4.7 с небольшим отрывом, исключительно за лучшее соответствие дизайнерскому запросу.


⏱️ Проект 2: Трекер продуктивности "для ебанов"

Промпт: Десктоп-приложение с трекингом активных окон, черным списком сайтов (YouTube, TikTok), перерывом на обед, настраиваемым графиком работы и саркастическими уведомлениями при отвлечении.

Результаты:

  • Kimi 2.6

    • Дизайн: 5/10 (понятно, но просто).
    • Функционал: 0/10 (ни одна из ключевых функций не работает).
    • Итог: Провал.
  • Gmini 3.1 Pro

    • Дизайн: 4/10 (неудобный интерфейс).
    • Функционал: 2/10 (часть функций есть, но реализация неудобная, нет выбора дней недели).
    • Итог: Очень слабо.
  • GLM 5.1

    • Дизайн: 7/10 (лучший дизайн, есть геймификация).
    • Функционал: 7/10 (многое работает, удобный интерфейс добавления приложений, но уведомления не приходят и есть баги с вылетами).
    • Итог: Лучший баланс дизайна и функционала.
  • GPT-4o

    • Дизайн: 5/10 (минимализм).
    • Функционал: 7/10 (уведомления работают, но функционал чёрного списка сайтов не сработал).
    • Итог: На уровне GLM.
  • Opus 4.7

    • Дизайн: 4/10 (ужасное сочетание цветов).
    • Функционал: 9/10 (всё работает идеально, особенно саркастические уведомления, но нельзя взять второй обед).
    • Итог: Абсолютный лидер по функционалу, но дизайн отталкивает.

🎖 Победитель во втором проекте: Ничья между GLM 5.1 и Opus 4.7. GLM — за лучший дизайн и хороший функционал, Opus — за безупречную работу функций.


📈 Проект 3: Дашборд "Polymarket"

Промпт: Создать уёбищный, но функциональный дашборд для отслеживания событий на Polymarket с анимациями, переключением категорий и интеграцией API.

Результаты:

  • Kimi 2.6

    • Дизайн: 1/10.
    • Функционал: 0/10.
    • Итог: Провал.
  • Gmini 3.1 Pro

    • Дизайн: 2/10 (мигает и "пердит").
    • Функционал: 0/10 (кнопки не работают).
    • Итог: Провал.
  • GLM 5.1

    • Дизайн: 3/10 (есть анимации, но выглядит уёбищно).
    • Функционал: 4/10 (кнопки работают, переходы есть, но API не корректно интегрировано).
    • Итог: Лучший среди первых трёх.
  • GPT-4o

    • Дизайн: 1/10 (полное несоответствие задаче).
    • Функционал: 1/10.
    • Итог: Провал.
  • Opus 4.7

    • Дизайн: 6/10 (приятные анимации, лучший вид).
    • Функционал: 6/10 (кнопки работают, есть навигация, но проблемы с API).
    • Итог:* Безоговорочный победитель в этой задаче.

🎖 Победитель в третьем проекте: Opus 4.7, значительно опередив остальных по обоим критериям.


💰 Сравнение стоимости (API)

Затраты на генерацию всех трёх проектов каждой моделью:

  • Kimi 2.6: 180 руб.
  • Gmini 3.1 Pro: 190 руб.
  • GLM 5.1: 180 руб.
  • GPT-4o: 700 руб.
  • Opus 4.7: 3600 руб. (~1200 руб. за проект)

✅ Выводы

  1. Цена ≠ Качество: Самые дорогие модели (Opus) не всегда дают пропорционально лучший результат. Зачастую бюджетные модели (Kimi, GLM) справляются с простыми задачами на твердую "четверку".
  2. Выбор под задачу:
    • Для простых лендингов и базовых задач выгоднее использовать бюджетные модели (Kimi, GLM).
    • Для сложных интерактивных приложений с уникальной логикой может потребоваться Opus, но его стоимость крайне высока.
    • GLM 5.1 показал себя как сбалансированный вариант с хорошим соотношением цена/качество, особенно в дизайне.
  3. Инструмент для тестов: Использование агрегаторов вроде Pольza AI позволяет удобно и экономично сравнивать разные модели без покупки множества подписок.
  4. Один промпт — это мало: Для получения идеального результата всем моделям, скорее всего, потребуется несколько итераций и доработок.
🤖 Сравнение языковых моделей для генерации кода — конспект на EchoNote