4 уровня голосового ввода для работы с AI
Ключевые тезисы:
- Голосовой ввод — следующий шаг в продуктивности при работе с AI.
- Существует 4 основных способа диктовки, каждый для своих задач.
- Скорость речи (
150 слов/мин) значительно превосходит скорость печати (25-60 слов/мин). - Для полноценной работы на десктопе часто необходимы сторонние приложения.
Уровни диктовки и их задачи
Системная диктовка (Уровень 1)
Встроенная функция операционной системы (iOS, Android, Windows, macOS).
Как работает: Значок микрофона на виртуальной клавиатуре или клавиша F5 на Mac.
Плюсы: Бесплатна, работает везде, не требует настройки.
Минусы: Нужно проговаривать знаки препинания («запятая», «точка»), плохо справляется с иностранными словами.- Задача: Быстро что-то записать, когда под рукой нет других инструментов.
Voice Mode (Уровень 2)
Режим живого диалога с AI, как с человеком (есть в ChatGPT, Gemini, Claude).
Как работает: Нажать иконку в приложении и начать говорить. AI отвечает голосом.
Важная особен: AI начинает отвечать после паузы в речи, поэтому длинные промты надиктовать не получится.- Идеальные сценарии: Короткие диалоги на ходу — на кухне, в машине, на прогулке.
- Проблема в Claude: Не понимает русскую речь в этом режиме (Push-to-Talk).
AI-диктовка в чате (Уровень 3)
Диктовка длинных промтов прямо в окне ввода текста в мобильном приложении.
Как работает: Значок микрофона в строке ввода в приложениях Claude, ChatGPT, Gemini.
Преимущества: Отличное распознавание с правильной пунктуацией, подходит для больших текстов.
Главный нюанс: На десктопе эта функция есть только у ChatGPT в веб-версии. В десктопном Claude и веб-версии Gemini её нет или она работает с ограничениями.- Задача: Основная «рабочая лошадка» для создания длинных промтов с телефона.
Сторонние приложения (Уровень 4)
Отдельные программы для голосового ввода, работающие в любой строке на компьютере.
Примеры: Super Whisper, WhisperFlow, Voice Link, Aqua Voice.
Ключевое преимущество: Работают везде, где можно поставить курсор (браузер, Word, Excel), особенно там, где нет встроенной кнопки диктовки.- Как работает: Нажал горячую клавишу → наговорил текст → он появился в активном поле. Отличное распознавание с правильной пунктуацией и иностранными словами.
- Модели: Часто используют локальные модели (например, ~500 МБ в Super Whisper), что обеспечивает приватность и скорость.
Сравнительная таблица поддержки (Claude / ChatGPT / Gemini)
| Уровень / AI | Claude | ChatGPT | Gemini |
|---|---|---|---|
| 1. Системная | Везде |
Везде |
Везде |
| 2. Voice Mode | (но не понимает русский) |
(обрывает на паузе) |
(обрывает на паузе) |
| 3. В чате (моб.) | ![]() |
![]() |
(с ограничениями в вебе) |
| 3. В чате (веб/ПК) | Нет |
Лучше всех |
Есть, но с приколами |
| 4. Приложения | Работают поверх всех |
Работают поверх всех |
Работают поверх всех |
Сравнительная таблица приложений и ссылки на них — в Telegram-канале автора.
Личный опыт и советы
- Переход требует привычки. Сначала неловко, мысли путаются (как при начале съёмок на камеру), но это быстро проходит.
- Рабочий процесс: Можно диктовать сценарии, а затем вслух проверять и править ответы AI, как учитель — работу ученика. Это несоизмеримо быстрее ручной правки.
- Диктовка в публичных местах становится нормой (как разговор по телефону). Для конфиденциальности уже появляются специальные маски (Hushme, Tadgh), скрывающие речь от окружающих.
Выводы
- Системная диктовка — для быстрых заметок.
- Voice Mode — для коротких диалогов в дороге или на ходу.
- AI-диктовка в чате — основной инструмент для длинных промтов на телефоне.
- Сторонние приложения (Super Whisper и аналоги) — must-have для продуктивной работы на десктопе, где нет встроенных удобных функций.
Голосовой ввод — неизбежный следующий уровень взаимодействия с технологиями. Если вы активно используете AI, переход с клавиатуры на диктовку — вопрос времени, и лучше сделать этот шаг раньше.