«ВКонтакте» открыла доступ к своим технологиям распознавания речи

 

Сторонним разработчикам открыли доступ к технологии «ВКонтакте», которая считывает голос и переводит его в текст. Технология распознавания речи или ASR (Automatic Speech Recognition), внедряется в несколько кликов. Об этом рассказал технический директор «ВКонтакте» Александр Тоболь на открытии конференции Saint HighLoad++.

Для распознавания можно выбрать одну из двух моделей. Нейтральная подойдет для разборчивой речи, как в телешоу или интервью, а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом и ненормативной лексикой. Нейросети «ВКонтакте» умеют удалять из расшифровки шумы и паузы, понимают неразборчивую речь.

Источник:

Источник: "ВКонтакте"

Технология доступна через веб-интерфейс на специальной странице или через публичный API «ВКонтакте». Решение подойдет для стартапов, инди-проектов, личных pet-проектов для обучения и саморазвития.

Как рассказал СТО «ВКонтакте» Александр Тоболь, каждый месяц пользователи отправляют более 2 млрд голосовых сообщений — это миллионы часов аудио, которые обрабатывают нейросети компании. ASR используется «ВКонтакте» для расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций. Под капотом у решения сразу три нейросети: одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Технология построена таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения. Каждое сообщение расшифровывается примерно за 1,5 с после отправки.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1074670
Система Orphus