🤖 Сравнение языковых моделей для генерации кода

Сравнение языковых моделей в генерации кода: кто круче?

Ключевые тезисы

Тестирование пяти топовых моделей (Kimi 2.6, Gmini 3.1 Pro, GLM 5.1, GPT-4o, Opus 4.7) на создание рабочих проектов по одному промпту.
Критерии оценки: субъективный UX/UI, работоспособность функционала и стоимость выполнения (цена API).
Для удобства и экономии использовался агрегатор Pольza AI, предоставляющий доступ к 400+ моделям по единому API.
Результаты показывают, что дорогие модели не всегда оправдывают свою стоимость, а бюджетные могут быть эффективны для простых задач.

Методология тестирования

Условия:

Каждая модель получает один промпт для создания проекта "с нуля" (без дополнительных навыков или доработок).
Разрешен один дополнительный промпт только для отладки, если проект не запускается из-за критических ошибок.
Оценка ведется по субъективным, но практичным критериям.

Критерии оценки:

Дизайн (UX/UI) — субъективная оценка внешнего вида, удобства и стиля.
Функционал — работоспособность заявленных функций (работают ли кнопки, логика).
Стоимость — сумма, потраченная на генерацию проекта через API.

Проект 1: Лендинг для таксопарка "Мандаго"

Промпт: Создать сайт для таксопарка с фото владельца в костюме на фоне Maybach, стилем как у Uber, контактными данными и ключевой фразой "Лучшие выплаты только в Манда".

Результаты:

Kimi 2.6
- Дизайн: 6/10 (минималистично, но странные элементы).
- Функционал: 10/10 (всё работает, форма отправки корректно сохраняет данные в SQL).
- Итог: Справляется отлично для своей цены.
Gmini 3.1 Pro
- Дизайн: 5/10 (нравится "стиль общения" в текстах, но общее исполнение среднее).
- Функционал: 10/10 (всё работает, SQL интегрирован).
- Итог: Хороший функционал, дизайн "на троечку".
GLM 5.1
- Дизайн: 5/10.
- Функционал: 10/10.
- Итог: Аналогично Gmini — крепкий "середнячок".
GPT-4o
- Дизайн: 3/10 (скучно, не соответствует запрошенному стилю).
- Функционал: 10/10.
- Итог: Провал в дизайне, хотя технически всё в порядке.
Opus 4.7
- Дизайн: 6.5/10 (самый высокий балл, но всё равно кривовато).
- Функционал: 10/10.
- Итог: Лучший в дизайне среди всех, но ненамного.

🎖 Победитель в первом проекте: Opus 4.7 с небольшим отрывом, исключительно за лучшее соответствие дизайнерскому запросу.

Проект 2: Трекер продуктивности "для ебанов"

Промпт: Десктоп-приложение с трекингом активных окон, черным списком сайтов (YouTube, TikTok), перерывом на обед, настраиваемым графиком работы и саркастическими уведомлениями при отвлечении.

Результаты:

Kimi 2.6
- Дизайн: 5/10 (понятно, но просто).
- Функционал: 0/10 (ни одна из ключевых функций не работает).
- Итог: Провал.
Gmini 3.1 Pro
- Дизайн: 4/10 (неудобный интерфейс).
- Функционал: 2/10 (часть функций есть, но реализация неудобная, нет выбора дней недели).
- Итог: Очень слабо.
GLM 5.1
- Дизайн: 7/10 (лучший дизайн, есть геймификация).
- Функционал: 7/10 (многое работает, удобный интерфейс добавления приложений, но уведомления не приходят и есть баги с вылетами).
- Итог: Лучший баланс дизайна и функционала.
GPT-4o
- Дизайн: 5/10 (минимализм).
- Функционал: 7/10 (уведомления работают, но функционал чёрного списка сайтов не сработал).
- Итог: На уровне GLM.
Opus 4.7
- Дизайн: 4/10 (ужасное сочетание цветов).
- Функционал: 9/10 (всё работает идеально, особенно саркастические уведомления, но нельзя взять второй обед).
- Итог: Абсолютный лидер по функционалу, но дизайн отталкивает.

🎖 Победитель во втором проекте: Ничья между GLM 5.1 и Opus 4.7. GLM — за лучший дизайн и хороший функционал, Opus — за безупречную работу функций.

Проект 3: Дашборд "Polymarket"

Промпт: Создать уёбищный, но функциональный дашборд для отслеживания событий на Polymarket с анимациями, переключением категорий и интеграцией API.

Результаты:

Kimi 2.6
- Дизайн: 1/10.
- Функционал: 0/10.
- Итог: Провал.
Gmini 3.1 Pro
- Дизайн: 2/10 (мигает и "пердит").
- Функционал: 0/10 (кнопки не работают).
- Итог: Провал.
GLM 5.1
- Дизайн: 3/10 (есть анимации, но выглядит уёбищно).
- Функционал: 4/10 (кнопки работают, переходы есть, но API не корректно интегрировано).
- Итог: Лучший среди первых трёх.
GPT-4o
- Дизайн: 1/10 (полное несоответствие задаче).
- Функционал: 1/10.
- Итог: Провал.
Opus 4.7
- Дизайн: 6/10 (приятные анимации, лучший вид).
- Функционал: 6/10 (кнопки работают, есть навигация, но проблемы с API).
- Итог:* Безоговорочный победитель в этой задаче.

🎖 Победитель в третьем проекте: Opus 4.7, значительно опередив остальных по обоим критериям.

Сравнение стоимости (API)

Затраты на генерацию всех трёх проектов каждой моделью:

Kimi 2.6: 180 руб.
Gmini 3.1 Pro: 190 руб.
GLM 5.1: 180 руб.
GPT-4o: 700 руб.
Opus 4.7: 3600 руб. (~1200 руб. за проект)

Выводы

Цена ≠ Качество: Самые дорогие модели (Opus) не всегда дают пропорционально лучший результат. Зачастую бюджетные модели (Kimi, GLM) справляются с простыми задачами на твердую "четверку".
Выбор под задачу:
- Для простых лендингов и базовых задач выгоднее использовать бюджетные модели (Kimi, GLM).
- Для сложных интерактивных приложений с уникальной логикой может потребоваться Opus, но его стоимость крайне высока.
- GLM 5.1 показал себя как сбалансированный вариант с хорошим соотношением цена/качество, особенно в дизайне.
Инструмент для тестов: Использование агрегаторов вроде Pольza AI позволяет удобно и экономично сравнивать разные модели без покупки множества подписок.
Один промпт — это мало: Для получения идеального результата всем моделям, скорее всего, потребуется несколько итераций и доработок.