Сравнение языковых моделей в генерации кода: кто круче?
Ключевые тезисы
- Тестирование пяти топовых моделей (Kimi 2.6, Gmini 3.1 Pro, GLM 5.1, GPT-4o, Opus 4.7) на создание рабочих проектов по одному промпту.
- Критерии оценки: субъективный UX/UI, работоспособность функционала и стоимость выполнения (цена API).
- Для удобства и экономии использовался агрегатор Pольza AI, предоставляющий доступ к 400+ моделям по единому API.
- Результаты показывают, что дорогие модели не всегда оправдывают свою стоимость, а бюджетные могут быть эффективны для простых задач.
Методология тестирования
Условия:
- Каждая модель получает один промпт для создания проекта "с нуля" (без дополнительных навыков или доработок).
- Разрешен один дополнительный промпт только для отладки, если проект не запускается из-за критических ошибок.
- Оценка ведется по субъективным, но практичным критериям.
Критерии оценки:
- Дизайн (UX/UI) — субъективная оценка внешнего вида, удобства и стиля.
- Функционал — работоспособность заявленных функций (работают ли кнопки, логика).
- Стоимость — сумма, потраченная на генерацию проекта через API.
Проект 1: Лендинг для таксопарка "Мандаго"
Промпт: Создать сайт для таксопарка с фото владельца в костюме на фоне Maybach, стилем как у Uber, контактными данными и ключевой фразой "Лучшие выплаты только в Манда".
Результаты:
Kimi 2.6
- Дизайн: 6/10 (минималистично, но странные элементы).
- Функционал: 10/10 (всё работает, форма отправки корректно сохраняет данные в SQL).
- Итог: Справляется отлично для своей цены.
Gmini 3.1 Pro
- Дизайн: 5/10 (нравится "стиль общения" в текстах, но общее исполнение среднее).
- Функционал: 10/10 (всё работает, SQL интегрирован).
- Итог: Хороший функционал, дизайн "на троечку".
GLM 5.1
- Дизайн: 5/10.
- Функционал: 10/10.
- Итог: Аналогично Gmini — крепкий "середнячок".
GPT-4o
- Дизайн: 3/10 (скучно, не соответствует запрошенному стилю).
- Функционал: 10/10.
- Итог: Провал в дизайне, хотя технически всё в порядке.
Opus 4.7
- Дизайн: 6.5/10 (самый высокий балл, но всё равно кривовато).
- Функционал: 10/10.
- Итог: Лучший в дизайне среди всех, но ненамного.
🎖 Победитель в первом проекте: Opus 4.7 с небольшим отрывом, исключительно за лучшее соответствие дизайнерскому запросу.
Проект 2: Трекер продуктивности "для ебанов"
Промпт: Десктоп-приложение с трекингом активных окон, черным списком сайтов (YouTube, TikTok), перерывом на обед, настраиваемым графиком работы и саркастическими уведомлениями при отвлечении.
Результаты:
Kimi 2.6
- Дизайн: 5/10 (понятно, но просто).
- Функционал: 0/10 (ни одна из ключевых функций не работает).
- Итог: Провал.
Gmini 3.1 Pro
- Дизайн: 4/10 (неудобный интерфейс).
- Функционал: 2/10 (часть функций есть, но реализация неудобная, нет выбора дней недели).
- Итог: Очень слабо.
GLM 5.1
- Дизайн: 7/10 (лучший дизайн, есть геймификация).
- Функционал: 7/10 (многое работает, удобный интерфейс добавления приложений, но уведомления не приходят и есть баги с вылетами).
- Итог: Лучший баланс дизайна и функционала.
GPT-4o
- Дизайн: 5/10 (минимализм).
- Функционал: 7/10 (уведомления работают, но функционал чёрного списка сайтов не сработал).
- Итог: На уровне GLM.
Opus 4.7
- Дизайн: 4/10 (ужасное сочетание цветов).
- Функционал: 9/10 (всё работает идеально, особенно саркастические уведомления, но нельзя взять второй обед).
- Итог: Абсолютный лидер по функционалу, но дизайн отталкивает.
🎖 Победитель во втором проекте: Ничья между GLM 5.1 и Opus 4.7. GLM — за лучший дизайн и хороший функционал, Opus — за безупречную работу функций.
Проект 3: Дашборд "Polymarket"
Промпт: Создать уёбищный, но функциональный дашборд для отслеживания событий на Polymarket с анимациями, переключением категорий и интеграцией API.
Результаты:
Kimi 2.6
- Дизайн: 1/10.
- Функционал: 0/10.
- Итог: Провал.
Gmini 3.1 Pro
- Дизайн: 2/10 (мигает и "пердит").
- Функционал: 0/10 (кнопки не работают).
- Итог: Провал.
GLM 5.1
- Дизайн: 3/10 (есть анимации, но выглядит уёбищно).
- Функционал: 4/10 (кнопки работают, переходы есть, но API не корректно интегрировано).
- Итог: Лучший среди первых трёх.
GPT-4o
- Дизайн: 1/10 (полное несоответствие задаче).
- Функционал: 1/10.
- Итог: Провал.
Opus 4.7
- Дизайн: 6/10 (приятные анимации, лучший вид).
- Функционал: 6/10 (кнопки работают, есть навигация, но проблемы с API).
- Итог:* Безоговорочный победитель в этой задаче.
🎖 Победитель в третьем проекте: Opus 4.7, значительно опередив остальных по обоим критериям.
Сравнение стоимости (API)
Затраты на генерацию всех трёх проектов каждой моделью:
- Kimi 2.6: 180 руб.
- Gmini 3.1 Pro: 190 руб.
- GLM 5.1: 180 руб.
- GPT-4o: 700 руб.
- Opus 4.7: 3600 руб. (~1200 руб. за проект)
Выводы
- Цена ≠ Качество: Самые дорогие модели (Opus) не всегда дают пропорционально лучший результат. Зачастую бюджетные модели (Kimi, GLM) справляются с простыми задачами на твердую "четверку".
- Выбор под задачу:
- Для простых лендингов и базовых задач выгоднее использовать бюджетные модели (Kimi, GLM).
- Для сложных интерактивных приложений с уникальной логикой может потребоваться Opus, но его стоимость крайне высока.
- GLM 5.1 показал себя как сбалансированный вариант с хорошим соотношением цена/качество, особенно в дизайне.
- Инструмент для тестов: Использование агрегаторов вроде Pольza AI позволяет удобно и экономично сравнивать разные модели без покупки множества подписок.
- Один промпт — это мало: Для получения идеального результата всем моделям, скорее всего, потребуется несколько итераций и доработок.