Cloud Voice
Платформа распознавания и синтеза речи на базе машинного обучения

Речевые технологии для бизнеса
Сервисы распознавания речи и генератора голоса по тексту помогут вам проанализировать звонки клиентов или добавить голосовое управление к приложению
Распознавание речи
Voice ASR (Automatic Speech Recognition) — автоматическое распознавание речи
- Перевод речи в текст
Загрузите файл с записью голоса и быстро получите результат в виде текстового файла
- Понятные расшифровки
Voice ASR экономит время на редактирование: сервис автоматически разобьет текст на предложения и расставит знаки
Синтез речи
Voice TTS (Text-to-speech) — генератор естественной речи
- Естественное звучание речи
Благодаря технологиям машинного обучения голос похож на естественную речь человека
- Любой язык разработки
Единый API, который не зависит от платформы и языка разработки
Преимущества голосовой платформы VK Cloud
Стабильная и протестированная технология
Сервис построен с применением технологий знакомого пользователям голосового помощника Маруся. Теперь вы можете использовать его возможности для вашего бизнеса: наложите Cloud Voice на необходимую бизнес-логику и интегрируйте в ваше приложение или сервис

Постоянное улучшение качества
Качество сервиса постоянно улучшается. Модели машинного обучения в основе Voice постоянно дообучаются на новых данных, а значит, качество распознавания и синтеза речи улучшается. Вам не нужно что-то обновлять, вы получаете все улучшения автоматически

Распознавание аудиофайлов и потокового аудио
Сервис умеет работать как с отдельными аудиофайлами, так и с потоковым аудио. Благодаря этому он подходит для широкого круга задач: вы можете добавить в приложение голосовые команды, интегрировать голосового помощника, контролировать качество обработки звонков службой поддержки или автоматизировать работу колл-центра

Чистое звучание
На платформе доступны мужские и женские голоса. Для разработки голосов мы используем студийные записи профессиональных дикторов: это гарантирует чистое звучание и выразительную речь

Если вы хотите узнать больше о возможностях сервиса, оставьте заявку на консультацию

Сценарии использования
Технологии распознавания голоса и синтеза речи полезны компаниям в разных отраслях
Автоматизировать работу колл-центра
Сервис работает с потоковым аудио, позволяя распознавать речь в реальном времени. Он мгновенно расшифрует запрос пользователя и передаст текст в приложение с вашей бизнес-логикой. Вместе с синтезом речи это позволит создать цифрового сотрудника колл- центра
Привлечь в приложение пользователей голосовым управлением
Добавьте к своему мобильному приложению голосовые команды, например, «Убавь громкость», «Покажи историю моих покупок» или «Повтори прошлый заказ»
Озвучить контент на сайте или в приложении
Иногда у пользователей нет времени читать новости или статьи, но они готовы их слушать за рулем или на тренировке. Добавьте в ваше приложение или сайт автоматическое озвучивание текста и другого контента, чтобы увеличить охват
Адаптировать сервис для людей с ограниченными возможностями
Сделайте ваш сервис доступным для слабовидящих людей. Добавьте голосовое управление, подсказки и воспроизведение текста в речь
Повысить качество работы службы поддержки
Менеджерам больше не нужно слушать записи звонков, чтобы оценить работу службы поддержки. Сервис автоматически расшифровывает записи разговоров, и вы можете извлекать из них нужную информацию: оценивать качество работы операторов, отслеживать использование нецензурной лексики и общую тональность общения
Отслеживать отношение к бренду
Автоматически отслеживайте отношение к бренду, собирайте обратную связь и обрабатывайте частые запросы пользователей с помощью анализа упоминаний компании, аудио и видеоотзывов
Любые сценарии использования сервиса
Если вам нужна помощь в реализации сценариев использования сервиса, оставьте заявку. Наши эксперты помогут разработать необходимую бизнес-логику и интегрировать ее в ваше приложение или сервис.

Сервис оплачивается по факту использования
Вы платите только за количество символов озвученного текста или количество распознанных минут аудио
Попробуйте наши сервисы
После активации аккаунта мы свяжемся с вами и начислим до 12 000 рублей на ваш счет VK Cloud, чтобы вы смогли протестировать сервис в течение 60 дней

FAQ
Как можно протестировать технологию?
<a href="/app/" style="color:#0187F6;">Зарегистрируйтесь</a> на платформе VK Cloud и получите бонусные рубли после полной верификации аккаунта. Их вполне хватит для тестирования сервиса.
Как начать работать с Cloud Voice?
Нужно войти в аккаунт платформы VK Cloud, в левом меню выбрать сервис Cloud ML Platform и вкладку Voice API. Затем можно распознавать и синтезировать голос с помощью API. Документацию и примеры использования можно найти в разделе «<a href="/app/services/machinelearning/voice/methods/" target="_blank" style="color:#0187F6;">Методы API</a>».
Какие аудиоформаты поддерживаются для голосового распознавания?
PCM (L16, WAV, AIFF, AU, PCM), OPUS (OGG, OPUS), MP3.
Какие преимущества использования речевых технологий именно в облаке?
<ol>
<li>Технологии распознавания голоса и синтеза речи требуют значительных вычислительных ресурсов. Если использовать распознавание речи прямо на устройствах пользователей (мобильные телефоны и планшеты), то для этого придется сохранять модель внутри приложения, и на слабых устройствах это будет работать медленно.</li>
<li>Rest API Voice ASR и Voice TTS, который не зависит от платформы и языка разработки.</li>
<li>Облачная платформа постоянно улучшается, и пользователям не нужно обновлять свои приложения, чтобы получить доступ к новым функциям и повышению качества распознавания (cloud speech to text).</li>
</ol>
Я не умею программировать. Могу ли я воспользоваться сервисом?
На текущий момент технологию можно использовать только через API-интерфейсы. В будущем мы разработаем графический интерфейс, чтобы сервисом могли пользоваться люди без навыков программирования.
Где будет сохранен результат?
Сервис возвращает распознанный или озвученный текст в том же запросе, в котором вы к нему обращаетесь.
Есть ли у сервиса какие-то ограничения?
Сейчас поддерживается только русский язык (speech recognition Russian), максимальная продолжительность аудиофайла для распознавания речи — 5 минут. Если вам нужно распознавание длинных аудиозаписей на русском языке — <a href="?modal=feedback-sales" style="color:#0187F6;">оставьте заявку</a>
Не нашли ответ на свой вопрос?
Задайте его нам на портале поддержки, и мы оперативно ответим
Наши клиенты
Читайте, как облачные технологии и сервисы VK Cloud помогают компаниям решать самые важные задачи.