Российские системы распознавания речи для бизнеса

Обновлено: 27.02.2024
Примеры российских систем распознавания речи (на русском языке) - представлены ниже.

2023. Сбер выпустил приложение SaluteSpeech для синтеза и распознавания речи в аудио



Сбер выпустил десктоп-приложение SaluteSpeech App для синтеза и распознавания речи в аудио. Оно работает на Windows и Mac. В приложении есть два раздела. «Распознавание» — для текстовой расшифровки голосовых файлов. «Синтез» — для озвучивания текста с возможностью настраивать паузы и ударения. Синтезировать текст можно разными голосами из семи вариантов на русском и английском языках. В приложение встроен GigaChat API, поэтому пользователь может загрузить короткие тезисы, нейросеть по ним подготовит текст для озвучивания. Также с помощью GigaChat в приложении можно сделать короткую выжимку длинного текста, а после озвучить материал. Приложение бесплатное, но чтобы начать работу, надо подключить сервис SaluteSpeech. Его минимальная стоимость за месяц использования — 600 рублей. Есть бесплатный тариф для физлиц Freemium, по нему доступно 100 минут распознавания и 200 тысяч символов синтеза в месяц.


2023. В Яндекс.Облаке появились сервисы для анализа речи, защиты от DDoS-атак и рассылок



Облачная платформа Яндекс.Облако запустила сервис речевой аналитики Yandex SpeechSense. Он работает на основе языковой модели YandexGPT и позволяет проводить анализ звонков и переписок операторов контакт-центров. Нейросеть оценивает тон диалога, уровень вовлечённости и эмпатии оператора, а также удовлетворённость клиента. Также, на платформе появился сервис для защиты веб-приложений от DDoS-атак Smart Web Security. Он определяет угрозы с помощью «поведенческого анализа» пользователей, встроенных алгоритмов машинного обучения и интеграции с Yandex SmartCaptcha. Ещё одним анонсом Yandex Cloud стал сервис рассылки почтовых уведомлений Yandex Cloud Postbox. С его помощью компании могут в автоматическом режиме сообщать клиентам о состоянии заказов, отписке или смене пароля.


2023. Яндекс Браузер научился генерировать субтитры для любых русскоязычных видео



Яндекс Браузер научился создавать субтитры для видео и трансляций на русском языке с помощью нейросети. Функция работает на любых сайтах, в том числе в соцсетях, на страницах телеканалов и в облачных хранилищах. Её можно включить по кнопке в верхней части ролика. Генерация работает только для видео на русском, но компания планирует добавить больше языков и сделать технологию доступной на мобильных устройствах. Технологию можно использовать и на ПК с невысокой мощностью. Генерация работает в браузере для Windows и Linux. В настройках можно выбрать размер шрифта и изменить прозрачность фона для субтитров.


2023. В VK Звонки появилась функция аудиорасшифровки разговоров



ВКонтакте добавила функцию аудиорасшифровки разговоров в свою систему видеоконференций и вебинаров VK Звонки. Расшифровку аудиодорожки в текст может запустить любой участник группового звонка. Всем остальным придёт уведомление об этом. В будущем администратор встречи получит право самостоятельно решать, кто из собеседников сможет пользоваться функцией. По завершении встречи файл с текстом беседы появится в общем чате и в профиле пользователя, который начал расшифровку. По всему тексту будут расставлены тайм-коды и имена спикеров. «ВКонтакте» считает, что это поможет, например, тем, кому нужно быстро расшифровать интервью или пересказать коллегам или партнёрам ключевые тезисы разговора. Автоматические субтитры, в свою очередь, будут видны только тем, кто включил их в настройках.


2023. ЦРТ и VINTEO представили решение для протоколирования ВКС-совещаний



Группа компаний ЦРТ и VINTEO объявили о расширении технологического партнерства и представили совместное решение для протоколирования ВКС-совещаний. Интеграция позволит строить ВКС-инфраструктуру организации на базе полнофункционального защищенного продукта классической видеосвязи, проводить видеоконференции с неограниченным числом участников и обеспечивать автоматическое протоколирование онлайн-встреч на нескольких языках с последующей работой с данными. Новое решение позволит обеспечить сохранение 100% данных по итогам видеовстреч в контуре организации и в два раза ускорить подготовку стенограмм. Может быть особо актуально для государственных ведомств и коммерческих компаний, где повышенные требования к качеству видеоконференцсвязи, информационной безопасности и используется строгий регламент работы с данными. В основе решения — российская система интеллектуального сопровождения совещаний Нестор.BRIEF от группы компаний ЦРТ и платформа видеоконференцсвязи профессионального класса telepresence от компании VINTEO.


2022. VK открывает разработчикам доступ к собственным технологиям распознавания речи



VK открыла доступ к своему сервису распознавания речи, использующему технологии Automatic Speech Recognition, или ASR, которая распознает устную речь и преобразует её в текст. Она работает при помощи трёх нейросетей: одна отвечает за само распознавание, вторая находит подходящие слова, третья расставляет знаки препинания. По словам компании, инструмент обрабатывает записи за несколько секунд, хорошо справляется с посторонними шумами и паузами, неразборчивым произношением, а также сленгом и сокращениями. Для распознавания работают две модели: нейтральная — для ясной речи, как, например, в телешоу или интервью, и спонтанная — для непринужденных бесед и монологов с разговорной и ненормативной лексикой. Компания предлагает две версии ASR: одна позволяет обрабатывать до 100 минут аудио в сутки, другая не имеет ограничений по времени, но её нужно запрашивать отдельно — отправив заявку.


2022. Яндекс создал мультиязычную нейросеть для роботизированных колл-центров



Компания Yandex.Cloud запустил распознающую 10 иностранных языков нейросеть, с помощью которой можно создавать голосовых помощников и роботов для колл-центров с большими потоками клиентов. В частности, нейросеть знает английский, французский, датский, финский, турецкий и другие языки. Она может распознать речь на любую тему — короткие и длинные фразы, имена, адреса, даты и числа. Система способна распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между языками. При этом есть возможность давать ей «подсказки», чтобы улучшить качество распознавания. Нейросеть работает в сервисе синтеза и распознавания речи Yandex SpeechKit. К концу июня 2022 года сервис используют более 1000 клиентов, в том числе X5 Retail Group и Додо пицца. Новое мультиязычное распознавание доступно для проектов пользователей Yandex SpeechKit и настраивается стандартными средствами в API.


2022. Сбер представил обновленую версию своего сервиса видеоконференций Jazz



Сбер переименовал свой сервис видеоконференций из СберМитап в Jazz и добавил несколько новых функций. В частности, появилась технология автоматического распознавания речи, благодаря которой можно видеть расшифровку беседы в режиме реального времени или скачать полный текст разговора в любой момент видеовстречи. Также, появилась функция умного шумоподавления и возможность подключаться без видео, чтобы созваниваться было удобно независимо от качества интернета и внешних условий, а также опция видеозаписи встречи. Сервис Jazz позволяет бесплатно создавать видеовстречи до 200 человек без ограничений по времени.


2022. Основанный россиянином сервис распознавания речи Sanas привлек $32 млн



Стартап Sanas, который с помощь технологии распознавания речи обучает пользователей правильному произношению (английского языка) объявил о привлечении $32 млн. Sanas основали в 2020 году россиянин Максим Серебряков, Шон Чжан и Андрес Содери. Компания, базирующаяся в Пало-Альто, занимается разработкой ПО, предназначенного для снижения языковых барьеров и несовпадения акцентов при общении. Программное обеспечение компании представляет собой технологию перевода акцента в режиме реального времени, которая позволяет говорящим говорить с любым акцентом без заметной задержки, что позволяет пользователям лучше понимать друг друга и иметь возможность выбора стиля общения.


2022. Сбер запустил бота в Telegram для перевода аудиофайлов в текст



Команда SberDevices запустила бесплатный бот в Telegram — он переводит голосовые сообщения на русском языке в текст. Бот работает на основе технологии распознавания речи SmartSpeech. Он может пригодиться журналистам, копирайтерам, переводчикам и другие специалистам, которые работают с текстами. Бот можно использовать в личной переписке и добавлять в групповые чаты. Он может также расшифровать одноканальные аудиофайлы на русском языке до 20 Мб в форматах MP3, WAV (8-96 кГц), FLAC и OggOpus. У технологии SmartSpeech есть также функция генерации речи — она позволяет озвучивать тексты и создавать звуковые ролики. Компании могут подключиться к сервису через облачное API.


2022. В мобильной версии корпоративного сервис деска ITSM 365 реализовано голосовое создание заявки



Теперь создать и отправить сервисное обращение при помощи мобильного приложения ITSM 365 cтало еще проще. Для этого достаточно лишь записать на смартфоне голосовое сообщение с описанием своей проблемы. Аудиозапись обращения будет доступна для прослушивания в виджете в описании заявки или в прикрепленном файле. При этом в версии для iOS также автоматически прикрепляется текстовая расшифровка записи. В случае с Android предусмотрена только звуковая запись, что обусловлено параметрами операционной системы. Опция голосового создания заявок доступна для пользователей на тарифах Стартап и Взлет. Также можно настроить этот функционал на тарифах Бизнес и Корпорация.


2021. Оки-Токи: Обновление речевой аналитики



Разработчики Оки-Токи отказались от монетизации стенограмм, сделав их бесплатными. Они сконцентрировались на том, чтобы стенограмма была не просто самостоятельной опцией, а инструментом для автоматической речевой аналитики оператора. Теперь анализ и расшифровка записей доступна для стороны оператора. Вы можете создавать свои правила, словари отслеживаемых слов, подключайте к проектам и отслеживайте в реальном времени нарушения, продажи и другие важные слова-триггеры. Комбинируйте вместе с инструментом для отдела контроля качества для ускорения проверки звонков — в звонках будут метки. Если нужно отслеживать только определенные звонки, то теперь по правилам можно также фильтровать, как по хештегам из CRM.


2021. Сбер представил сервис речевых технологий для бизнеса



Сбер запустил сервис SmartSpeech, который позволит бизнесу без специального оборудования подключать к своим системам речевые технологии - например, в интерактивном голосовом меню, автоответчике, чатах и других голосовых интерфейсах. SmartSpeech можно использовать на сайтах, в приложениях и «умных» устройствах для озвучивания контента и команд или голосового ввода. Для этого достаточно загрузить текст, и робот сам прочтёт его вслух — заранее записывать речь не придётся. Сервис распознаёт и синтезирует речь, а также способен использовать «подсказки», чтобы понимать пользователя в зависимости от конкретной ситуации. До конца 2021 года сервис можно подключить бесплатно.


2021. «Тинькофф» запустил речевую аналитику для бизнеса



Сервис речевой аналитики Тинькофф поможет бизнесу автоматически расшифровывать большие объемы телефонных звонков и анализировать их. Этот инструмент поможет колл-центрам, маркетинговым службам, отделам продаж, телекоммуникационным компаниям и другим, говорят в банке. ИИ может анализировать все разговоры операторов с клиентами в онлайн-режиме, отправлять уведомления в отдел контроля качества и формировать отчёты. Сервис позволяет сортировать звонки: например, по дате, фамилии оператора, успешности разговора и так далее. Банк предлагает два варианта подписки: облачная версия, которая анализирует звонки на серверах «Тинькофф», стоит от 0,8 рублей за минуту разговора, а цена коробочной версии, работающей на внутренних серверах компании, обсуждается индивидуально.


2021. Распознавание речи в звонках и система речевой аналитики в INTRUM CRM



Вышло очередное обновление INTRUM CRM. Теперь все записи звонков, поступающие в систему в рамках встроенной АТС или при интеграции CRM c виртуальной АТС мобильных операторов, автоматически обрабатываются обучаемой нейросетью с целью распознания речи. Данная возможность предоставляется без дополнительной платы, бесплатно на всех тарифах. В системе появилась также возможность речевой аналитики - т.е. нахождения в звонках признаков проблемных ситуаций: недовольства, конфликтных ситуаций, жалоб, некомпетентности сотрудника и прочее. Помимо этого в INTRUM CRM появилось много специальных функций для отраслевой версии для недвижимости: мониторинг изменения выписки ЕГРН, обновленная база собственников и агентов, отчет оценки юридических рисков, бесплатный конструктор сайта для агентства


2021. В Zadarma появилось распознавание речи с бесплатной речевой аналитикой



Сервис облачной телефонии Zadarma представил инструмент речевой аналитики, который поможет контролировать сотрудников отделов продаж и поддержки. Все разговоры переводятся в текст, и текст автоматически анализируется по нескольким параметрами, таким как, молчание и перебивание оператора, скорость речи, использование слов из словаря или нецензурной лексики. Можно производить поиск в разговорах, например, по названию товара. Платить нужно только за распознавание разговоров. Стоимость - $0.015/мин. В пакетные тарифы АТС включены бесплатные минуты для распознавания. Инструмент речевой аналитики - абсолютно бесплатный.


2020. Тинькофф Мобайл запустил сервис автоматической записи и расшифровки звонков



Тинькофф Мобайл запустил услугу автоматической записи и расшифровки телефонных звонков. Она позволяет автоматически сохранять все входящие и исходящие звонки. Для расшифровки аудио используется собственная технология распознавания речи Tinkoff VoiceKit. Запись звонка хранится в приложении. Абоненты могут прослушать его и прочитать расшифровку в формате диалога в мессенджере, объяснил оператор. Все записи будут доступны только самому абоненту в течение шести месяцев. После этого данные удаляются без возможности восстановления, добавили в компании. Подключить его можно в разделе «Услуги» в мобильном приложении оператора. Услуга будет бесплатной в течение двух пробных дней, далее стоимость составит от 59 рублей в день или от 399 рублей в месяц в зависимости от региона.


2020. В виртуальной АТС Mango Office появились голосовые боты



В виртуальной АТС Mango Office и одноименном облачном колл-центре появилась возможность создавать голосовых ботов, с помощью которых можно реализуются сценарии массового информирования и уведомления клиентов, проведения телефонных опросов, базового консультирования по продуктам или услугам, первичный прием и последующая маршрутизация обращений. Действия ботов как реакция на слова собеседников определяются по заданному скрипту. Разработчики говорят, обучить бота - не сложно. Можно воспользоваться преднастроенным скриптом (на старте их доступно шесть) или создать оригинальный — при помощи конструктора с текстовым редактором. Редактор позволяет использовать не только фразы, но и фразовые шаблоны с загрузкой данных из интегрированной CRM-системы. Таким образом, бот сможет обратиться к клиенту по имени, перечислить товары в заказе, назвать сумму задолженности.


2020. Яндекс представил Яндекс.Мессенджер с автоматической расшифровкой голосовых сообщений



Вслед за Mail.ru, которая перезагрузила ICQ, Яндекс тоже снова делает попытку создать популярный отечественный мессенджер. Назвали его очень просто - Яндекс.Мессенджер. В нем можно вести каналы, совершать аудио- и видеозвонки. Одна из оригинальных функций - расшифровка голосовых сообщений, которая использует продвинутые голосовые технологии Яндекса. Кроме отдельных приложений для iOS и Android, мессенджер встроен в мобильное приложение Яндекса, десктопный браузер и главную страницу поисковика. В мессенджере уже есть все пользователи Яндекса. Достаточно разрешить доступ к контактам.


2020. В виртуальной АТС Телфин.Офис появилось распознавание речи



В виртуальной АТС Телфин.Офис появилась новая услуга - преобразование речи в текст. Ее можно использовать для контроля сотрудников (например, на соблюдение стандартов обслуживания клиентов по телефону), выявления реальных потребностей клиентов, оценки их уровня удовлетворенности, оптимизации скриптов продаж. Также, эта функция пригодится для безопасности: например, можно анализировать диалоги на наличие в них фраз типа «перезвоню вам с другого номера», «запишите мой личный мобильный» и т. д. Функция преобразования речи в текст полезна для менеджеров и руководителей отделов продаж и маркетинга, операторов колл-центров, а также журналистов, копирайтеров, переводчиков для расшифровки интервью и комментариев экспертов. До конца месяца распознавание речи будет работать бесплатно, а далее 1 минута перевода будет стоить 85 копеек.


2020. В России придумали бейджи с микрофонами для анализа речи сотрудников



Российский стартап Voca.Tech в партнёрстве с Яндекс.Облаком представил бейджи с микрофонами для автоматического анализа речи сотрудников Voca.Badge. Устройства предназначены для розничных сетей, банков и других компаний с большим количеством сотрудников первой линии общения с клиентами. Бейдж записывает речь сотрудника и через Wi-Fi передаёт файл в Яндекс.Облако, где технология Yandex SpeechKit распознаёт и переводит речь в текст. Программа покажет работодателю, насколько вежливо и эффективно сотрудник общался с клиентом: например, дал ли он ему полную, достоверную и понятную информацию о товаре, не использовал ли слова паразиты и так далее. Бейдж может автономно работать до 12 часов и различать речь даже в условиях шума торгового зала. Один бейдж стоит 9,5 тыс руб. За аналитику и распознавание речи нужно платить отдельно.


2019. В Яндекс.Почте появились голосовые сообщения и голосовой набор



Яндекс наконец-то решил использовать свои (классные) речевые технологии SpeechKit в собственных сервисах. Яндекс.Почта запустила в приложении на iOS функцию голосового набора писем. К письму прикрепляется аудиофайл — на случай, если в тексте появилась ошибка, а исправлять её некогда. Также сервис теперь может прочитать вслух заголовок сообщения и его текст — системные технологии озвучивания зачитывают весь текст на экране, а не только письмо. На момент запуска функция доступна части пользователей iOS-приложения, к середине октября 2019 года она появится у всех пользователей платформы.


2019. Сбербанк купил знаменитого разработчика систем распознавания голоса



Сбербанк купил 51% акций компании Центр Речевых Технологий, разрабатывающей технологии анализа и синтеза речи, а также распознавания лиц. До этого разработчик полностью принадлежал Газпромбанку. У Сбербанка уже есть опыт использования разработок ЦРТ в своих продуктах. В частности, на их основе была создана цифровая телеведущая Елена, которую банк представил в апреле 2019 г. До этого в июне 2017 г. Сбербанк начал внедрение разработок компании в собственной биометрической системе защиты информации. Технологии ЦРТ позволяют идентифицировать клиентов банка по голосу, сравнивая его с заранее записанным образцом.


2019. Тинькофф запустил сервисы распознавания и синтеза речи



Недавно Тинькофф банк запустил голосового ассистента Олега, а теперь решил открыть свои API распознавания и синтеза речи для сторонних бизнес-приложений. Например, их можно использовать для создания ботов, смарт-автоответчиков колл-центра, записи IVR, озвучки видеороликов, перевода звуковых записей телефонных разговоров или совещаний в текстовый формат. Стоимость Tinkoff VoiceKit составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от Яндекса составляет 60 копеек за минуту.


2014. Яндекс запустил облачную платформу распознавания речи



Яндекс запустил облачный сервис SpeechKit Cloud, при помощи которого разработчики могут встроить в свои продукты технологию распознавания речи. Так что теперь можно ожидать появления различных приложений, использующих эту технологию. В бизнес-сфере это могут быть онлайн приложения для голосового ввода текста, протоколирования встреч (например, приема пациентов в клинике), а главное - для создания интерактивных голосовых меню (IVR) в АТС и Call-центрах. Кстати, компания Oktell уже недавно встроила движок распознавания речи Яндекса в свою АТС. Также, на днях оператор Мегафон объявил о внедрении в службу поддержки электронной девушки Лены, которая распознает речь и может разговаривать с клиентами (правда, в этом случае используется не яндексовская технология). Создание таких интеллектуальных голосовых меню позволит повысить удобство для клиентов и сэкономить на количестве операторов, отвечающих на одни и те же вопросы.