Как автоматически транскрибировать встречу в Skype, правильно привязанную к каждому участнику?

Предполагая, что каждый участник согласен с записью и транскрипцией Skype-звонка, существует способ подписания собрания (как в прямом эфире, так и в автономном режиме или в обоих случаях), так что он создает текстовую расшифровку, в которой каждый произносимый текст правильно относится к динамику. После этого транскрипт может быть введен в любое множество алгоритмов поиска или NLP.

Топ-3 поисковых запроса Google «автоматически транскрибировать Skype» относятся к приложениям, упрощающим ручную транскрипцию:

(1) http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html

(2) http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation

(3) https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations

Хотя было бы тривиально записывать звук и отправлять его в механизм для преобразования речи в текст, я сомневаюсь, что это будет очень высокое качество, потому что лучшие результаты обычно являются динамическими моделями (иначе нам не нужно было бы тратить время на обучение Дракон, естественно говорящий).

Но прежде чем мы сможем выбрать динамики, зависящие от динамики транскрипции, нам нужно знать, какой сегмент аудио принадлежит динамику. Существует два способа решить эту проблему:

  1. Существует простой способ получить весь звук, который поступает от каждого участника, например, вы просто записываете весь звук с микрофона каждого динамика во время разговора, и вам не нужно выполнять какую-либо сегментацию.

  2. В случае, если первый вариант невозможен или запрещен каким-то образом, мы должны использовать алгоритм диакритики спикера, который сегментирует звук в N кластеров / динамиков (большинство алгоритмов позволяют рассказать, сколько динамиков в аудио, но некоторые могут это выдумайте сами). Для транскрипции в реальном времени по мере продолжения вызова я предполагаю, что нам нужен какой-то причудливый алгоритм диакритики динамиков реального времени.

В любом случае, как только сегментирование будет разрешено, каждый участник имеет свою обучаемую модель динамиков, которая затем применяется к их частям аудио. В конце концов, каждый получает приятную транскрипцию беседы, и позже мы можем делать причудливые вещи, такие как анализ темы, или, может быть, «Большой брат» хочет просеять все собрания проектов, не прислушиваясь к часам аудио.

Мой вопрос в том, каков был бы способ реализации этого на практике?

nlp,audio-recording,skype,speech-to-text,transcription,

2

Ответов: 0

Как автоматически транскрибировать встречу в Skype, правильно привязанную к каждому участнику?

Предполагая, что каждый участник согласен с записью и транскрипцией Skype-звонка, существует способ подписания собрания (как в прямом эфире, так и в автономном режиме или в обоих случаях), так что он создает текстовую расшифровку, в которой каждый произносимый текст правильно относится к динамику. После этого транскрипт может быть введен в любое множество алгоритмов поиска или NLP.

Топ-3 поисковых запроса Google «автоматически транскрибировать Skype» относятся к приложениям, упрощающим ручную транскрипцию:

(1) http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html

(2) http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation

(3) https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations

Хотя было бы тривиально записывать звук и отправлять его в механизм для преобразования речи в текст, я сомневаюсь, что это будет очень высокое качество, потому что лучшие результаты обычно являются динамическими моделями (иначе нам не нужно было бы тратить время на обучение Дракон, естественно говорящий).

Но прежде чем мы сможем выбрать динамики, зависящие от динамики транскрипции, нам нужно знать, какой сегмент аудио принадлежит динамику. Существует два способа решить эту проблему:

  1. Существует простой способ получить весь звук, который поступает от каждого участника, например, вы просто записываете весь звук с микрофона каждого динамика во время разговора, и вам не нужно выполнять какую-либо сегментацию.

  2. В случае, если первый вариант невозможен или запрещен каким-то образом, мы должны использовать алгоритм диакритики спикера, который сегментирует звук в N кластеров / динамиков (большинство алгоритмов позволяют рассказать, сколько динамиков в аудио, но некоторые могут это выдумайте сами). Для транскрипции в реальном времени по мере продолжения вызова я предполагаю, что нам нужен какой-то причудливый алгоритм диакритики динамиков реального времени.

В любом случае, как только сегментирование будет разрешено, каждый участник имеет свою обучаемую модель динамиков, которая затем применяется к их частям аудио. В конце концов, каждый получает приятную транскрипцию беседы, и позже мы можем делать причудливые вещи, такие как анализ темы, или, может быть, «Большой брат» хочет просеять все собрания проектов, не прислушиваясь к часам аудио.

Мой вопрос в том, каков был бы способ реализации этого на практике?

02NLP, аудио-запись, скайп, речи в текст, транскрипция,
Похожие вопросы
Яндекс.Метрика