Распознавание речи для бизнеса
Обновлено: 10.03.2023 |
Распознавание речи применяется в бизнесе для:
- обработки обращений клиентов (в IVR)
- автоматизации исходящих маркетинговых кампаний (в Call-центрах)
- создания документов/сообщений при помощи диктовки
- ввода данных в корпоративные приложения
- преобразования голосовых сообщений в текст
- протоколирования встреч, совещаний
- в голосовых ассистентах
Ниже даны примеры использования распознавания речи для бизнеса.
- обработки обращений клиентов (в IVR)
- автоматизации исходящих маркетинговых кампаний (в Call-центрах)
- создания документов/сообщений при помощи диктовки
- ввода данных в корпоративные приложения
- преобразования голосовых сообщений в текст
- протоколирования встреч, совещаний
- в голосовых ассистентах
Ниже даны примеры использования распознавания речи для бизнеса.
2023. OpenAI представила API открытой системы преобразования речи в текст

Компания OpenAI представила API для системы Whisper, которая представляет собой инструмент преобразования речи в текст, обученный на 680 000 часов многоязычных и «многозадачных» данных, собранных из интернета. Система способна корректно воспринимать произношение с акцентом, идентифицировать фоновые шумы, а также технический жаргон. Как заявляет OpenAI, решение может «надёжно» транскрибировать речь на нескольких языках, а также осуществлять перевод с этих языков на английский. Однако у Whisper есть свои ограничения, особенно в области предиктивной расшифровки. Кроме того, качество работы Whisper различается для разных языков. Благодаря появлению Whisper API сторонние разработчики смогут интегрировать эту нейросеть в свои приложения. Поддерживается работа с файлами в различных форматах, включая M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM. Стоимость использования модели Whisper large-v2 составляет $0,006 в минуту. Полученный текст затем может использоваться в других приложениях на основе нейросетей.
2022. VK открывает разработчикам доступ к собственным технологиям распознавания речи

VK открыла доступ к своему сервису распознавания речи, использующему технологии Automatic Speech Recognition, или ASR, которая распознает устную речь и преобразует её в текст. Она работает при помощи трёх нейросетей: одна отвечает за само распознавание, вторая находит подходящие слова, третья расставляет знаки препинания. По словам компании, инструмент обрабатывает записи за несколько секунд, хорошо справляется с посторонними шумами и паузами, неразборчивым произношением, а также сленгом и сокращениями. Для распознавания работают две модели: нейтральная — для ясной речи, как, например, в телешоу или интервью, и спонтанная — для непринужденных бесед и монологов с разговорной и ненормативной лексикой. Компания предлагает две версии ASR: одна позволяет обрабатывать до 100 минут аудио в сутки, другая не имеет ограничений по времени, но её нужно запрашивать отдельно — отправив заявку.
2022. Яндекс создал мультиязычную нейросеть для роботизированных колл-центров

Компания Yandex.Cloud запустил распознающую 10 иностранных языков нейросеть, с помощью которой можно создавать голосовых помощников и роботов для колл-центров с большими потоками клиентов. В частности, нейросеть знает английский, французский, датский, финский, турецкий и другие языки. Она может распознать речь на любую тему — короткие и длинные фразы, имена, адреса, даты и числа. Система способна распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между языками. При этом есть возможность давать ей «подсказки», чтобы улучшить качество распознавания. Нейросеть работает в сервисе синтеза и распознавания речи Yandex SpeechKit. К концу июня 2022 года сервис используют более 1000 клиентов, в том числе X5 Retail Group и Додо пицца. Новое мультиязычное распознавание доступно для проектов пользователей Yandex SpeechKit и настраивается стандартными средствами в API.
2022. Сбер представил обновленую версию своего сервиса видеоконференций Jazz

Сбер переименовал свой сервис видеоконференций из СберМитап в Jazz и добавил несколько новых функций. В частности, появилась технология автоматического распознавания речи, благодаря которой можно видеть расшифровку беседы в режиме реального времени или скачать полный текст разговора в любой момент видеовстречи. Также, появилась функция умного шумоподавления и возможность подключаться без видео, чтобы созваниваться было удобно независимо от качества интернета и внешних условий, а также опция видеозаписи встречи. Сервис Jazz позволяет бесплатно создавать видеовстречи до 200 человек без ограничений по времени.
2022. Основанный россиянином сервис распознавания речи Sanas привлек $32 млн

Стартап Sanas, который с помощь технологии распознавания речи обучает пользователей правильному произношению (английского языка) объявил о привлечении $32 млн. Sanas основали в 2020 году россиянин Максим Серебряков, Шон Чжан и Андрес Содери. Компания, базирующаяся в Пало-Альто, занимается разработкой ПО, предназначенного для снижения языковых барьеров и несовпадения акцентов при общении. Программное обеспечение компании представляет собой технологию перевода акцента в режиме реального времени, которая позволяет говорящим говорить с любым акцентом без заметной задержки, что позволяет пользователям лучше понимать друг друга и иметь возможность выбора стиля общения.
2022. Сбер запустил бота в Telegram для перевода аудиофайлов в текст

Команда SberDevices запустила бесплатный бот в Telegram — он переводит голосовые сообщения на русском языке в текст. Бот работает на основе технологии распознавания речи SmartSpeech. Он может пригодиться журналистам, копирайтерам, переводчикам и другие специалистам, которые работают с текстами. Бот можно использовать в личной переписке и добавлять в групповые чаты. Он может также расшифровать одноканальные аудиофайлы на русском языке до 20 Мб в форматах MP3, WAV (8-96 кГц), FLAC и OggOpus. У технологии SmartSpeech есть также функция генерации речи — она позволяет озвучивать тексты и создавать звуковые ролики. Компании могут подключиться к сервису через облачное API.
2022. В мобильной версии корпоративного сервис деска ITSM 365 реализовано голосовое создание заявки

Теперь создать и отправить сервисное обращение при помощи мобильного приложения ITSM 365 cтало еще проще. Для этого достаточно лишь записать на смартфоне голосовое сообщение с описанием своей проблемы. Аудиозапись обращения будет доступна для прослушивания в виджете в описании заявки или в прикрепленном файле. При этом в версии для iOS также автоматически прикрепляется текстовая расшифровка записи. В случае с Android предусмотрена только звуковая запись, что обусловлено параметрами операционной системы. Опция голосового создания заявок доступна для пользователей на тарифах Стартап и Взлет. Также можно настроить этот функционал на тарифах Бизнес и Корпорация.
2021. Оки-Токи: Обновление речевой аналитики

Разработчики Оки-Токи отказались от монетизации стенограмм, сделав их бесплатными. Они сконцентрировались на том, чтобы стенограмма была не просто самостоятельной опцией, а инструментом для автоматической речевой аналитики оператора. Теперь анализ и расшифровка записей доступна для стороны оператора. Вы можете создавать свои правила, словари отслеживаемых слов, подключайте к проектам и отслеживайте в реальном времени нарушения, продажи и другие важные слова-триггеры. Комбинируйте вместе с инструментом для отдела контроля качества для ускорения проверки звонков — в звонках будут метки. Если нужно отслеживать только определенные звонки, то теперь по правилам можно также фильтровать, как по хештегам из CRM.
2021. В Microsoft Dictate появилась поддержка русского языка
Microsoft Dictate - это инструмент в майкрософтовском офисе, который позволяет распознавать речь, т.е. надиктовывать текст вместо печатания. Сегодня в нем появилась поддержка 9 новых языков, в том числе и русского. Dictate работает не как чукча (что слышу, то и пишу), а различает команды - например, когда вы говорите "точка" или "запятая", он ставит знаки препинания, когда говорите "перенос строки" - делает новую строку и т.д. Подобный инструмент уже давно есть в Google Docs, правда, работает он пока недостаточно качественно.
2021. Сбер представил сервис речевых технологий для бизнеса

Сбер запустил сервис SmartSpeech, который позволит бизнесу без специального оборудования подключать к своим системам речевые технологии - например, в интерактивном голосовом меню, автоответчике, чатах и других голосовых интерфейсах. SmartSpeech можно использовать на сайтах, в приложениях и «умных» устройствах для озвучивания контента и команд или голосового ввода. Для этого достаточно загрузить текст, и робот сам прочтёт его вслух — заранее записывать речь не придётся. Сервис распознаёт и синтезирует речь, а также способен использовать «подсказки», чтобы понимать пользователя в зависимости от конкретной ситуации. До конца 2021 года сервис можно подключить бесплатно.
2021. Microsoft покупает Nuance за $19,7 млрд

Microsoft обновила Топ-5 крупнейших сделок в истории ИТ-рынка, купив (за $19,7 млрд) компанию Nuance - одного из лидеров рынка систем распознавания речи. Собственно, Nuance и создала этот рынок, выпустив программу Dragon NaturallySpeaking в начале 2000-х годов. Алгоритмы распознавания речи Nuance легли в основу голосового ассистента Apple Siri. Но наибольшего успеха компания достигла в медицине. Ее системы помогают стенографировать опросы пациентов и отчеты врачей, освобождая последних от тяжелой бумажной работы. Вероятно, именно ради медицинского бизнеса Microsoft и заплатила такую огромную сумму. В прошлом году компания представила платформу Microsoft Cloud for Healthcare, в которой используются технологии Nuance.
2021. «Тинькофф» запустил речевую аналитику для бизнеса

Сервис речевой аналитики Тинькофф поможет бизнесу автоматически расшифровывать большие объемы телефонных звонков и анализировать их. Этот инструмент поможет колл-центрам, маркетинговым службам, отделам продаж, телекоммуникационным компаниям и другим, говорят в банке. ИИ может анализировать все разговоры операторов с клиентами в онлайн-режиме, отправлять уведомления в отдел контроля качества и формировать отчёты. Сервис позволяет сортировать звонки: например, по дате, фамилии оператора, успешности разговора и так далее. Банк предлагает два варианта подписки: облачная версия, которая анализирует звонки на серверах «Тинькофф», стоит от 0,8 рублей за минуту разговора, а цена коробочной версии, работающей на внутренних серверах компании, обсуждается индивидуально.
2021. Распознавание речи в звонках и система речевой аналитики в INTRUM CRM

Вышло очередное обновление INTRUM CRM. Теперь все записи звонков, поступающие в систему в рамках встроенной АТС или при интеграции CRM c виртуальной АТС мобильных операторов, автоматически обрабатываются обучаемой нейросетью с целью распознания речи. Данная возможность предоставляется без дополнительной платы, бесплатно на всех тарифах. В системе появилась также возможность речевой аналитики - т.е. нахождения в звонках признаков проблемных ситуаций: недовольства, конфликтных ситуаций, жалоб, некомпетентности сотрудника и прочее. Помимо этого в INTRUM CRM появилось много специальных функций для отраслевой версии для недвижимости: мониторинг изменения выписки ЕГРН, обновленная база собственников и агентов, отчет оценки юридических рисков, бесплатный конструктор сайта для агентства
2021. Microsoft выпустила приложение для текстовой записи онлайн-встреч

Microsoft выпустила приложение Group Transcribe, которое позволяет прямо во время разговора нескольких человек в онлайне получить расшифровку их речи в текст, а при необходимости — и перевод расшифровки. Т.е. в реальном времени вы можете читать кто что говорит, или сохранить эту расшифровку чтобы почитать потом. Group Transcribe можно использовать как дополнение к видеовстречам через Zoom, Teams или другой сервис. Организатор должен создать в приложении комнату и пригласить туда всех участников. Т.е. звук будет идти через приложение, а видео - через ваш сервис видеосвязи. Приложение поддерживает 37 языков, среди них есть и русский. Пока оно работает только на iOS, но скоро появится и для Android. Также, Microsoft скоро выпустит специальные колонки для оффлайн встреч, которые также будут записывать текст встречи.
2021. Искусственный интеллект Microsoft превзошел людей в понимании человеческой речи

Искусственный интеллект (ИИ) DeBERTa корпорации Microsoft превзошел возможности человека бенчмарке SuperGLUE – тесте на понимание естественного языка. Он набрал 90,3 балла, тогда как показатели человека находятся на уровне 89,8 балла. Помимо полутора миллиардов параметров, у DeBERTa есть важное отличие от других ИИ-моделей, тоже сыгравшее свою роль в получении 90,3 балла в SuperGLUE. Этот ИИ по умолчанию учитывает не только значения слов, но и их позиции и роли в предложении. Для примера, в предложении «новый магазин открылся рядом с торговым центром» (a new store opened beside the new mall» он вполне в состоянии понять, что близкие по контекстному значению слово «магазин» (store) и словосочетание «торговый центр» (mall) играют разные синтаксические роли (подлежащим здесь является именно «магазин»).
2021. В Zadarma появилось распознавание речи с бесплатной речевой аналитикой

Сервис облачной телефонии Zadarma представил инструмент речевой аналитики, который поможет контролировать сотрудников отделов продаж и поддержки. Все разговоры переводятся в текст, и текст автоматически анализируется по нескольким параметрами, таким как, молчание и перебивание оператора, скорость речи, использование слов из словаря или нецензурной лексики. Можно производить поиск в разговорах, например, по названию товара. Платить нужно только за распознавание разговоров. Стоимость - $0.015/мин. В пакетные тарифы АТС включены бесплатные минуты для распознавания. Инструмент речевой аналитики - абсолютно бесплатный.
2020. Тинькофф Мобайл запустил сервис автоматической записи и расшифровки звонков

Тинькофф Мобайл запустил услугу автоматической записи и расшифровки телефонных звонков. Она позволяет автоматически сохранять все входящие и исходящие звонки. Для расшифровки аудио используется собственная технология распознавания речи Tinkoff VoiceKit. Запись звонка хранится в приложении. Абоненты могут прослушать его и прочитать расшифровку в формате диалога в мессенджере, объяснил оператор. Все записи будут доступны только самому абоненту в течение шести месяцев. После этого данные удаляются без возможности восстановления, добавили в компании. Подключить его можно в разделе «Услуги» в мобильном приложении оператора. Услуга будет бесплатной в течение двух пробных дней, далее стоимость составит от 59 рублей в день или от 399 рублей в месяц в зависимости от региона.
2020. В виртуальной АТС Mango Office появились голосовые боты

В виртуальной АТС Mango Office и одноименном облачном колл-центре появилась возможность создавать голосовых ботов, с помощью которых можно реализуются сценарии массового информирования и уведомления клиентов, проведения телефонных опросов, базового консультирования по продуктам или услугам, первичный прием и последующая маршрутизация обращений. Действия ботов как реакция на слова собеседников определяются по заданному скрипту. Разработчики говорят, обучить бота - не сложно. Можно воспользоваться преднастроенным скриптом (на старте их доступно шесть) или создать оригинальный — при помощи конструктора с текстовым редактором. Редактор позволяет использовать не только фразы, но и фразовые шаблоны с загрузкой данных из интегрированной CRM-системы. Таким образом, бот сможет обратиться к клиенту по имени, перечислить товары в заказе, назвать сумму задолженности.
2020. Распознавание речи - новая функция Zadarma

Сервис облачной телефонии Zadarma представил новую функцию распознавания речи. Теперь все клиенты, использующие бесплатную АТС Zadarma, смогут не только прослушать записи разговоров, но и увидеть их текстовую расшифровку. Сервис умеет работать с 20+ языками. Услуга распознавания платная и зависит от языка. Также в API Zadarma доступны методы по работе с распознаванием речи, можно подключить функцию к своей системе, а также не просто распознавать, но и анализировать разговоры. В ближайшее время телефония представит инструмент аналитики речи.
2020. Яндекс представил Яндекс.Мессенджер с автоматической расшифровкой голосовых сообщений

Вслед за Mail.ru, которая перезагрузила ICQ, Яндекс тоже снова делает попытку создать популярный отечественный мессенджер. Назвали его очень просто - Яндекс.Мессенджер. В нем можно вести каналы, совершать аудио- и видеозвонки. Одна из оригинальных функций - расшифровка голосовых сообщений, которая использует продвинутые голосовые технологии Яндекса. Кроме отдельных приложений для iOS и Android, мессенджер встроен в мобильное приложение Яндекса, десктопный браузер и главную страницу поисковика. В мессенджере уже есть все пользователи Яндекса. Достаточно разрешить доступ к контактам.
2020. В виртуальной АТС Телфин.Офис появилось распознавание речи

В виртуальной АТС Телфин.Офис появилась новая услуга - преобразование речи в текст. Ее можно использовать для контроля сотрудников (например, на соблюдение стандартов обслуживания клиентов по телефону), выявления реальных потребностей клиентов, оценки их уровня удовлетворенности, оптимизации скриптов продаж. Также, эта функция пригодится для безопасности: например, можно анализировать диалоги на наличие в них фраз типа «перезвоню вам с другого номера», «запишите мой личный мобильный» и т. д. Функция преобразования речи в текст полезна для менеджеров и руководителей отделов продаж и маркетинга, операторов колл-центров, а также журналистов, копирайтеров, переводчиков для расшифровки интервью и комментариев экспертов. До конца месяца распознавание речи будет работать бесплатно, а далее 1 минута перевода будет стоить 85 копеек.
2020. В России придумали бейджи с микрофонами для анализа речи сотрудников

Российский стартап Voca.Tech в партнёрстве с Яндекс.Облаком представил бейджи с микрофонами для автоматического анализа речи сотрудников Voca.Badge. Устройства предназначены для розничных сетей, банков и других компаний с большим количеством сотрудников первой линии общения с клиентами. Бейдж записывает речь сотрудника и через Wi-Fi передаёт файл в Яндекс.Облако, где технология Yandex SpeechKit распознаёт и переводит речь в текст. Программа покажет работодателю, насколько вежливо и эффективно сотрудник общался с клиентом: например, дал ли он ему полную, достоверную и понятную информацию о товаре, не использовал ли слова паразиты и так далее. Бейдж может автономно работать до 12 часов и различать речь даже в условиях шума торгового зала. Один бейдж стоит 9,5 тыс руб. За аналитику и распознавание речи нужно платить отдельно.
2019. В GoToMeeting улучшили интерфейс и распознавание речи
Американская компания LogMeIn выпустила новую версию своей популярной системы видеоконференций GoToMeeting. В ней реализован полностью обновленный пользовательский интерфейс, унифицированный для различных девайсов. Также разработчики хорошо поработали над передачей звука и обещают высокое качество даже при медленном интернете. Для фиксации результатов видео-встреч появились заметки, которые можно делать в реальном времени и функция распознавания речи, которая позволяет читать лог видеоконференции в форме диалога. Организаторы встреч теперь могут создавать брендированные виртуальные переговорные и в любое время собирать в них свою команду для общения и совместной работы. Обновлены интеграции с Office 365, Outlook, Google Calendar и Slack.
2019. В Яндекс.Почте появились голосовые сообщения и голосовой набор

Яндекс наконец-то решил использовать свои (классные) речевые технологии SpeechKit в собственных сервисах. Яндекс.Почта запустила в приложении на iOS функцию голосового набора писем. К письму прикрепляется аудиофайл — на случай, если в тексте появилась ошибка, а исправлять её некогда. Также сервис теперь может прочитать вслух заголовок сообщения и его текст — системные технологии озвучивания зачитывают весь текст на экране, а не только письмо. На момент запуска функция доступна части пользователей iOS-приложения, к середине октября 2019 года она появится у всех пользователей платформы.
2019. Google выпустил Android 10 с распознаванием речи
Google выпустил новую версию операционной системы Android 10. Пока она доступна только для смартфонов Google Pixel, а к пользователям других телефонов долетит до конца года. Пожалуй самая интересная новая фича - это распознавание речи. Она позволяет показывать субтитры в любом видео или в камере при съемке видео. Фишка в том, что оно работает даже в отсутствии интернета. Другие новшества: темный режим (говорят, очень экономит батарею), центр управления приватностью с 50 новыми опциями, быстрая установка патчей безопасности, новый жест для возврата назад, «Умный ответ» - различные действия с уведомлениями (например, ссылку система сразу предложит открыть в Chrome, видео — в YouTube, адрес — в приложении карт).
2019. Сбербанк купил знаменитого разработчика систем распознавания голоса

Сбербанк купил 51% акций компании Центр Речевых Технологий, разрабатывающей технологии анализа и синтеза речи, а также распознавания лиц. До этого разработчик полностью принадлежал Газпромбанку. У Сбербанка уже есть опыт использования разработок ЦРТ в своих продуктах. В частности, на их основе была создана цифровая телеведущая Елена, которую банк представил в апреле 2019 г. До этого в июне 2017 г. Сбербанк начал внедрение разработок компании в собственной биометрической системе защиты информации. Технологии ЦРТ позволяют идентифицировать клиентов банка по голосу, сравнивая его с заранее записанным образцом.
2019. Тинькофф запустил сервисы распознавания и синтеза речи

Недавно Тинькофф банк запустил голосового ассистента Олега, а теперь решил открыть свои API распознавания и синтеза речи для сторонних бизнес-приложений. Например, их можно использовать для создания ботов, смарт-автоответчиков колл-центра, записи IVR, озвучки видеороликов, перевода звуковых записей телефонных разговоров или совещаний в текстовый формат. Стоимость Tinkoff VoiceKit составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от Яндекса составляет 60 копеек за минуту.
2019. Google запустил телефонного помощника для малого бизнеса
Google запустил сервис CallJoy, который представляет собой умный автоответчик (IVR) для малого бизнеса и (по задумке) должен дать людям возможность работать, вместо того, чтоб отвечать на звонки. Разумеется, фишкой сервиса является гугловский ИИ-ассистент, который умеет распознавать речь и отвечать на более-менее стандартные вопросы. Если запрос клиента может быть обработан на сайте (например, он желает записаться на прием или сделать заказ), CallJoy может выслать нужную ссылку по SMS. Если же клиент желает поговорить с представителем организации, то помощник соединит. Он также отфильтрует нежелательные спам-звонки. Владельцу бизнеса предоставляет дашборд со списком звонков и записью разговоров. Стоимость помощника для одного номера составляет $39 в месяц.
2018. Salesforce позволяет вводить данные в CRM голосом

Менеджеры по продажам любят говорить. Фактически, их работа сводится к тому, чтоб говорить. Но когда дело доходит до ввода информации о клиентах в CRM систему - им приходится печатать. Salesforce хочет избавить продажников от такого когнитивного диссонанса. Новая фича Einstein Voice позволяет вводить данные в систему с помощью естественной речи. Представьте, садясь за руль, вы просто запускаете мобильное приложение и рассказываете виртуальному ассистенту: "Только что я встречался с Джоном Смитом. Он заинтересован в покупке, но договорились созвониться через неделю..." (все это на английском, конечно). И виртуальный ассистент аккуратно добавляет заметку в историю по данному клиенту. Правда, Salesforce нужно что-то менять с личностью виртуального ассистента. Как-то неправильно заставлять Эйнштейна выполнять такие простые задачи.
2017. Ozlo превратился в API для разговорных интерфейсов

Помните нового виртуального ассистента Ozlo? Он передумал быть виртуальным ассистентом. Вместо этого, он решил помочь разработчикам быстро создавать разговорные интерфейсы к своим приложениям (за денюжку, конечно). Ozlo предлагает свою модель мира, которая состоит из 2 млрд фактов и к ней 3 API интерфейса: Data API - для пополнения/изменения модели мира (графа знаний), Intent API - для понимания вопросов пользователей (преобразования слов в смысл), и Converse API - для формулирования ответа (преобразования смысла в слова). Пример работы Ozlo виден на картинке. Исходя из вопроса "Можно ли завалить толпой в реторан Gravity и пожрать там устриц", он определил, что в данном ресторане подают устриц и приветствуют групповые посиделки и сформулировал ответ.