Этот конспект не сохранится

Закроешь вкладку — потеряешь. Зарегистрируйся — и он будет в библиотеке навсегда.

Telegram

Ваш конспект

YouTube🤖 Агенты на локальных LLM: практическое руководство

🎯 Агенты на локальных моделях: практическое руководство

Ключевые тезисы:

  • Локальные (on-prem) модели — это модели, развёрнутые на собственном железе, а не в облаке.
  • Главные драйверы использования: конфиденциальность данных (за пределами контура), контроль над стоимостью и стабильностью.
  • Качество локальных моделей для агентных задач сильно зависит от размера модели и железа.
  • Создание агентов под локальные модели требует особого подхода, так как они работают хуже, чем большие облачные модели (например, GPT-4).
  • Лучший способ начать — использовать готовые харнесы (OpenCD, Hermes) и экспериментировать.

🔧 Что такое локальные (on-prem) модели?

On-prem модели — это подход, при котором вы скачиваете языковую модель (например, с Hugging Face) и разворачиваете её на своём оборудовании: от видеокарты в компьютере до серверной стойки.

  • Облачные вычисления: Запрос улетает в ЦОД провайдера (OpenAI, Anthropic и т.д.).
  • Локальные вычисления: Запрос обрабатывается на вашем железе. Для этого нужны видеокарты с большим объёмом памяти (например, RTX 4090 24ГБ, RTX 5090 36ГБ).

💰 Минимальные сетапы и стоимость

Железо определяет, какую модель и для скольких задач можно запустить.

  • Слабые тачки (8 ГБ видеопамяти): Подходят модели до 7B параметров. Это уровень для хобби, простой классификации или транскрибации.
  • Для агентов (16-24 ГБ видеопамяти): Нужны для более стабильной работы. Позволяют запускать модели 14B-34B.
  • Серьёзные решения (48+ ГБ видеопамяти): Например, 4x RTX 4090 (48ГБ) или RTX 6000. Позволяют работать с моделями 70B+ (GPT OSS 120B, Qwen 123B) и решать десятки сценариев.

Примерная экономика:

  • RTX 4090 (24ГБ) — от 300К до 470К руб.
  • Сборка фермы на 48ГБ памяти — около 1 млн руб.
  • Ключевой плюс локальных моделей: Предсказуемость стоимости. Развернув решение сегодня, вы знаете, что через 3 месяца оно будет работать с тем же качеством и по той же цене (электричество), в отличие от облачных API, где цены и модели могут меняться.

🚀 Лучшие модели для разных задач

  • Для слабого железа (до 8ГБ): Модели 3B-7B, например, Qwen2.5 3B, Mistral 7B. Квантизация (Q4) помогает уместить их в память.
  • Для кодинга: DeepSeek Coder, Codestral, Qwen Coder.
  • Для русскоязычных агентных задач (фронтир): Qwen 3.5 32B / 72B и GPT OSS 120B. Qwen 3.5 14B морально устарел.
  • Как облачная альтернатива: Claude 3.5 Sonet, GPT-4o.
  • Для персональных агентов: Hermes Agent (на базе GPT OSS 120B или Qwen 72B).

💡 Важно: Маленькие модели (до 7B) не подходят для агентов общего назначения. Их стоит использовать для конкретных детерминированных задач: классификация, простой поиск, генерация заголовков.

⚙️ Особенности работы с локальными моделями

  • Галлюцинации и рубиконы: У маленьких моделей есть предел возможностей (рубикон эмерджентности). Для сложных задач нужны модели от 30B+ параметров.
  • Контекстное окно: У маленьких моделей часто формально большое окно (70К токенов), но они не могут его эффективно "переварить". Качество падает с ростом контекста.
  • Квантизация: Сильно ухудшает качество именно для агентных задач. Для них лучше использовать нативные форматы (FP16) или легкую квантизацию (FP8).
  • Подгрузка весов в RAM: Можно часть модели держать в оперативной памяти, а часть в VRAM. Это позволяет запускать огромные модели на относительно скромной видеокарте, но скорость падает в разы (до 10-30 токенов/секунду).

🛠️ Инструменты и харнесы (Agent Frameworks)

  • OpenCD / OpenCД: 🔥 Лучший выбор для старта. Стабильнее и проще для понимания, чем Cline/Cursor. Показал хорошие результаты с Qwen 32B.
  • Hermes Agent: Готовый харнес с кучей скиллов из коробки (веб-поиск, работа с файлами и т.д.). Легко подключается к Telegram. Основан на GPT OSS или Qwen.
  • Cursor / Cline: Мощные IDE-агенты, но сложнее для локальной настройки. Cline перестал поддерживать чат-интерфейс.
  • Свой харнес: Если понимаете принцип (запрос -> LLM -> вызов тула -> рефлексия), свой минимальный фреймворк на React-цикле можно собрать за 5-7 часов.

🧪 Практический пример: запуск агента на Qwen 32B

В ходе стрима был запущен OpenCD с моделью Qwen 3.5 32B через локальный хаб.

  1. Агенту дали задачу: исследовать локальный репозиторий и запустить веб-сервис.
  2. Результат: Агент смог найти проект, понять его структуру, установить зависимости и запустить веб-интерфейс, хотя и с некоторыми костылями (проблемы с маппингом портов).
  3. Скорость: Работал ощутимо медленнее облачных аналогов (в 4-6 раз), но в режиме реального времени.
  4. Вывод: Локальные модели уровня 32B+ уже способны выполнять нетривиальные инженерные задачи в связке с хорошим харнесом.

🎯 Какие задачи поручить локальным моделям?

  • Маленькие модели (<7B): Классификация, простой query expansion для поиска, суммаризация, транскрибация.
  • Модели 14B-32B: Автоматизация рутинных DevOps/инфраструктурных задач (поднять мониторинг, проверить логи), работа с документами, персональные ассистенты для календаря.
  • Крупные модели (70B+): Сложные агентные workflow, исследование кода, решение недетерминированных задач, требующих рассуждений.

❌ Чего делать не стоит (пока что)

  • Мультиагентные системы (MAS): Где несколько агентов общаются между собой. Создают избыточную сложность (overhead). Лучше использовать сабагентов, вызываемых основным оркестратором.
  • Полностью полагаться на агентов для продакшн-критичных задач без человеческого контроля (особенно в медицине, юриспруденции).
  • Ожидать, что "простое развертывание" локальной модели даст результат. Требуется настройка, подбор харнеса и тестирование.

🎯 Выводы

  1. Локальные модели — это уже рабочая технология для конкретных бизнес-задач, особенно где важна безопасность данных и предсказуемость затрат.
  2. Ключ к успеху — правильный выбор связки "железо + модель + харнес". Для старта идеально подходит OpenCD + Qwen 32B на карте с 24ГБ+ памяти.
  3. Начинать нужно с экспериментов. Возьмите готовый харнес, подключите к локальной модели (можно через тестовые хабы, как hub.t66.tech) и пробуйте решать свои узкие задачи.
  4. Не гонитесь за сложностью. Часто выигрывает самое простое и быстрое решение. Сначала поймите принцип работы агента (Reason & Act), затем оптимизируйте.
🤖 Агенты на локальных LLM: практическое руководство — конспект на EchoNote