Сервисы генерации устной речи для бизнеса

Обновлено: 16.03.2023
Технологии машинного обучения позволяют синтезировать человеческую речь, не прибегая к услугам студий озвучки. Синтез речи применяется для бизнеса в следующих приложениях:
- персональные голосовые ассистенты
- голосовое меню IVR
- создание видеороликов
- системы автообзвона
- call-центры

Примеры использования синтеза речи для бизнеса с помощью искусственного интеллекта приведены ниже.

2023. Yandex Cloud запустил сервис генерации голосов для виртуальных операторов колл-центров



На облачной платформе Yandex Cloud появился сервис Brand Voice Call Center. Он синтезирует речь по одной фразе и передаёт интонацию реального человека. Алгоритм способен обработать аудиошаблон и создать на его основе сотни других реплик. При этом его можно научить обращаться к собеседнику по имени или согласовывать адреса и набор товаров в заказе. В сгенерированных фразах также можно менять отдельные слова. Речь, сгенерированная с помощью Brand Voice Call Center, звучит естественно и передаёт детали речи человека из шаблона: интонации, изменения громкости. А в качестве образцов можно использовать записи реальных разговоров операторов колл-центров. Клиенты сервиса должны будут платить только за запросы — бюджет на обучение и поддержку алгоритма не потребуется.


2023. ИИ от Microsoft имитирует любой голос на основе трехсекундной записи



Microsoft представила искусственный интеллект, который может воспроизвести любой голос, передавая эмоции и тон говорящего. Компания Microsoft представили искусственный интеллект VALL-E. Он может генерировать голосовые записи на основе трехсекундного образца. Исследование показало, что модель, обученная на основе множества коротких отрывков, генерирует английскую речь, которую невозможно отличить от голоса оригинала. Анализ показал, что системе достаточно трехсекундного ролика для имитации голоса собеседника. При этом Vall-E значительно превосходит современную систему TTS с точки зрения естественности звучания речи и сходства голоса. Кроме того, она может сохранять эмоции говорящего и акустическую среду (влияние акустических свойств помещения, в котором была сделана оригинальная запись).


2022. Microsoft закрывает доступ к своим ИИ-разработкам распознавания лиц и генерации голоса



Microsoft опубликовала документ под названием «Стандарт ответственного использования ИИ», в котором указывается, что Microsoft приложит все усилия для минимизации возможного вреда от инструментов машинного обучения. Для этого вводятся более жесткие правила использования инструментария, разработанного Microsoft. На практике это означает следующее: Microsoft ограничивает доступ к инструментарию в Azure, который позволяет создавать решения по распознаванию пола и возраста людей по их изображениям на основе Face API. На средства распознавания эмоций людей по их видео или фотографиям также вешается замок. Также, ограничения коснутся средств распознавания лиц в целом и генерации реалистичного звука голоса. Доступ к таким инструментам теперь будет осуществляться по предварительной заявке, и решение, предоставлять доступ или нет, будет зависеть от того, сочтут ли проект потенциально вредным.


2021. Aimyvoice - сервис для покупки и создания синтезированных голосов



Разработчик разговорных ИИ-технологий Just AI запустил сервис Aimyvoice для покупки и создания синтезированных голосов. Голоса можно использовать для озвучивания видеороликов, ассистентов, ботов, служб поддержки и другого. Можно выбрать голос из каталога или синтезировать собственный и зарабатывать на его использовании. В каталоге доступно 18 вариантов — дикторские, мужские, женские и детские. Например, есть голос актрисы озвучки Татьяны Литвиновой, голоса персонажей и известных личностей, например, Деда Мороза и Ленина. Чтобы синтезировать собственную голосовую модель, надо загрузить аудиофайл, где будет от пяти часов записи живой речи.


2021. Microsoft и NVIDIA создали крупнейшую нейросеть для генерации языка



Microsoft и NVIDIA объединили усилия и создали крупнейшую на данный момент модель Megatron-Turing Natural Language Generation, способную понимать и генерировать человеческую речь. По словам разработчиков, модель продемонстрировала высокую точность в выполнении таких задач как понимание текста, определение смысла слова с несколькими значениями, завершение текста по смыслу, представление логических выводов и написание заключений в стиле, похожем на человеческий. Для обучения ИИ компании использовали суперкомпьютер, а также привлекли облачную систему. Благодаря этому, в ИИ за месяц удалось загрузить 1,5 Тб данных из разных баз.


2021. Яндекс запустил сервис для создания фирменных голосов для бизнеса



Платформа Yandex.Cloud представила сервис Yandex SpeechKit Brand Voice для создания фирменных голосов для виртуальных помощников, автоматизации колл-центра, проведения опросов, приёма входящих и исходящих звонков клиентам и других потребностей бизнеса. Сервис не генерирует речь просто из текста, он берет за основу голос реального человека и синтезирует новый. Он может персонализировать речь: например, добавить обращение, дату, номер заказа и другое, но звучит естественно. Создание фирменного голоса занимает месяц, а стоимость хостинга его ML-модели в облаке Яндекса - 150 тысяч рублей в месяц.


2021. Яндекс.Маркет начал использовать нейросеть для написания итоговых отзывов



Отзывы на товары читать, конечно, интересно, но иногда их так много, что на прочтение всех можно потратить больше времени, чем стоит товар. Поэтому разработчики Яндекс.Маркета придумали (с помощью нейросети) формировать умные/собирательные отзывы, написанные по комментариям покупателей. Такие отзывы состоят из двух частей: подробного комментария о товаре и набора ключевых характеристик, которые чаще всего отмечают пользователи, — например, для ноутбука - качество сборки, дизайн и удобство, уровень шума. Первое время перед попаданием на платформу, такой отзыв будет проверять человек.


2021. Сбер представил сервис речевых технологий для бизнеса



Сбер запустил сервис SmartSpeech, который позволит бизнесу без специального оборудования подключать к своим системам речевые технологии - например, в интерактивном голосовом меню, автоответчике, чатах и других голосовых интерфейсах. SmartSpeech можно использовать на сайтах, в приложениях и «умных» устройствах для озвучивания контента и команд или голосового ввода. Для этого достаточно загрузить текст, и робот сам прочтёт его вслух — заранее записывать речь не придётся. Сервис распознаёт и синтезирует речь, а также способен использовать «подсказки», чтобы понимать пользователя в зависимости от конкретной ситуации. До конца 2021 года сервис можно подключить бесплатно.


2020. Сервис Synthesia создает видеообращения из произвольного текста



Онлайн платформа Synthesia позволяет преобразовать любой текст в видео, где его начитывает виртуальный персонаж. Чтобы воспользоваться новой функцией, введите свой текстовый сценарий и нажмите на кнопку «Генерировать». Видео будет готово через несколько минут, при стандартном объеме это займет 15 минут. Новая платформа доступна на 34 языках, в частности на русском. При стандартной генерации ваш текст читает актриса Анна, помимо нее можно выбрать из еще десяти персонажей. Создатели предлагают использовать новый сервис для организации рабочих презентаций, отправки видео-сообщений и других целей.


2020. Google добавила в мессенджер Google Duo функцию восполнения обрывков слов во время разговоров



Google улучшила качество аудиозвонков в Google Duo, используя систему WaveNetEQ с поддержкой технологий искусственного интеллекта. Обычно, из-за нестабильности интернет-соединения, во время беседы звук может искажаться и прерываться. WaveNetEQ — система PLC, которая реалистично синтезирует недостающие фрагменты живой речи. Работа WaveNetEQ основана на большом массиве речевых данных — записанных голосах 100 людей, говорящих на 48 языках. Технология анализирует речь, чтобы синтезировать продолжение звучания, если голос говорящего временно пропадёт. Когда передача речи восстанавливается, технология «соединяет» искусственный звук с настоящим. Система «обучена» распознавать речь в разной обстановке, с разным уровнем фонового шума.


2020. Speech Robot - робот для телефонных звонков вместо call-центра



Speech Robot - новый сервис для автоматизации кол-центра. Его можно использовать для приема и подтверждения заказов, холодных звонков, информирования о доставке, маркетинговых опросов, проведения первичных собеседований. Робот делает звонки быстрее человека и стоит дешевле, это позволяет сокращать количество людей в кол-центре благодаря автоматизации рутинных задач. Есть готовые сценарии для информирования, оценки качества обслуживания, подтверждения заказа в интернет магазине, согласования даты и времени доставки. Можно связать с CRM системой. Тарификация - поминутная: минута исходящего разговора - 3,5 рубля, входящего - 70 копеек, распознавание речи - 75 копеек.


2020. Google Assistant научился читать тексты вслух


На выставке CES Google продемонстрировал новую способность своего виртуального помощника Google Assistant - читать тексты вслух. Уже скоро (через пару месяцев) вы сможете открыть статью, новость или просто веб-страничку с контентом сказать "ок, гугл, прочитай это", и ассистент сам обнаружит текстовую часть и прочитает вслух (на любом из 42 языков, включая русский). Конечно, сервисы чтения текстов уже дано существуют, но в Google говорят, что у них получилось создать хорошую нейросеть для расстановки ударений и интонаций, так что качество будет выше. По крайней мере, судя по промо-ролику, английский текст звучит действительно качественно.


2019. Сбербанк купил знаменитого разработчика систем распознавания голоса



Сбербанк купил 51% акций компании Центр Речевых Технологий, разрабатывающей технологии анализа и синтеза речи, а также распознавания лиц. До этого разработчик полностью принадлежал Газпромбанку. У Сбербанка уже есть опыт использования разработок ЦРТ в своих продуктах. В частности, на их основе была создана цифровая телеведущая Елена, которую банк представил в апреле 2019 г. До этого в июне 2017 г. Сбербанк начал внедрение разработок компании в собственной биометрической системе защиты информации. Технологии ЦРТ позволяют идентифицировать клиентов банка по голосу, сравнивая его с заранее записанным образцом.


2019. Тинькофф запустил сервисы распознавания и синтеза речи



Недавно Тинькофф банк запустил голосового ассистента Олега, а теперь решил открыть свои API распознавания и синтеза речи для сторонних бизнес-приложений. Например, их можно использовать для создания ботов, смарт-автоответчиков колл-центра, записи IVR, озвучки видеороликов, перевода звуковых записей телефонных разговоров или совещаний в текстовый формат. Стоимость Tinkoff VoiceKit составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от Яндекса составляет 60 копеек за минуту.


2017. Baidu представила систему преобразования текста в речь Deep Voice



Китайская компания Baidu представила систему преобразования текста в речь, которая называется Deep Voice. Она представляет собой нейросеть, созданную с помощью технологии глубокого обучения, в ходе которого она анализировала речь и сопоставляла её с текстом, после чего начала вполне сносно произносить слова. Сначала Deep Voice раскладывает слово на отдельные звуки, затем вводит данные в систему синтеза речи и произносит нужное слово. Несмотря на значительные успехи китайского поискового гиганта, компания Google продолжает лидировать в этой области. Её система WaveNet уже успешно синтезирует речь, опираясь на «прочитанный» ранее текст. Сейчас американская разработка умеет говорить на двух языках, и специалисты продолжают над ней работать.


2016. Google DeepMind научился говорить



Большинство популярных синтезаторов речи, например, в Siri, Cortana или Google Translate - строят речь из фрагментов записей настоящего человеческого голоса. Этот метод даёт неплохие результаты, но требует наличия в базе данных записей абсолютно всех звуков речи для каждого используемого голоса. Команда Google DeepMind представила технологию WaveNet, которая требует немного исходного материала, наговорённого человеком, и с помощью глубинного обучения нейросети позволяет генерировать любые слова для данного тембра голоса. Лингвистические правила и рекомендации позволяют WaveNet формировать осмысленную речь (т.е. ИИ понимает смысл того, что он говорит). Однако, разработчики говорят, что в ближайшей перспективе внедрение этого метода в Google Assistant вряд ли возможно из-за огромного объёма требуемых вычислений (WaveNet для синтезирования человеческой речи обрабатывает каждую секунду 16000 образцов аудио).


2013. Видео: Как Siri получила свой голос


Как известно, изначально голосовые способности Apple Siri (распознавание и синтез речи) были реализованы компанией Nuance. В этом ролике вы можете увидеть, как создавался голос Siri (это заняло более 4 месяцев).


2013. Amazon купила лучший синтезатор речи IVONA


Amazon купила польскую компанию IVONA, которая известна своей системой воспроизведения речи. IVONA поддерживает 17 языков и 44 различных голоса. На сайте компании вы можете ввести произвольный отрывок текста и система произнесет его с отличным качеством. Amazon уже некоторое время использовала технологию IVONA в читалках Kindle Fire для воспроизведения книг, но по слухам, Amazon работает над голосовым помощником аля Siri.