Нейросеть Wav2Vec 2.0 модифицировали до того уровня, что теперь она умеет распознавать речь людей, которые рассказывают о сильнейшем эмоциональном потрясении, пережитым ими. Лингвисты Санкт-Петербургского государственного университета обучили нейросеть на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва‑Шем.

Распознавание эмоциональной речи является наиболее важной задачей для сферы общения человека и компьютерных автоматических систем, так как за счет успешного распознавания речи можно в автоматическом режиме формировать субтитры, генерировать пересказ основных мыслей видео, а также без особых усилий переводить его в текстовый формат. На сегодняшний день современные технологии и так позволяют распознавать человеческую речь, однако в том случае, когда она насыщена эмоциями, задача становится в разы сложнее.

Иной раз даже живому человеку бывает непросто разобраться, что говорится в аудиозаписях разговоров, во время которых собеседники слишком ярко выражают свои эмоции. К примеру, плачут или кричат. Сильно упростить и ускорить процесс создания подстрочных субтитров к интервью с людьми, пережившими эмоциональное потрясение, могло бы повышение качества работы систем, с помощью которых можно анализировать сказанное.

Как это работает?

В Петербургском университете специалисты создали нейросеть, позволяющую не только распознавать содержание сказанного, но и в точности определять эмоции, испытываемые людьми в процессе интервью.

Магистрант СПбГУ (кафедра математической лингвистики) Михаил Долгушин пояснил, что в работе ученые использовали предобученную на русском языке глубокую нейросеть Wav2Vec 2.0. Она работает по принципу того, чтобы выучить сопоставление каждого звука устной человеческой речи с соответствующей буквой алфавита. Именно эта архитектура нейросети использует в своей работе и – так называемый – механизм внимания, позволяющий научиться фокусировать  внимание на значимых для определения той или иной буквы по звуку признаках. Это и повышает качество результата на значительном уровне, сообщает пресс-служба СПбГУ.

Для того, чтобы решить поставленную задачу, ученые университета использовали выложенную в свободный доступ русскоязычную модель распознавания речи профессора Новосибирского государственного университета Ивана Бондаренко. Работоспособность созданной в СПбГУ нейросети было решено проверить на материалах интервью с жертвами Холокоста. Они имеются в публичном доступе и были выложены израильским государственным национальным мемориалом Яд ва‑Шем. Мемориал свыше 50 лет собирал видеосвидетельства людей, переживших Холокост. В них люди рассказывают о событиях, свидетелями которых стали сами: оккупации городов, массовых убийствах, жизни в гетто и так далее.

27 января отмечается Международный день памяти жертв Холокоста. В 1945 году в этот день советские войска смогли освободить нацистский концентрационный лагерь «Освенцим», а также в этот же день – в 1944 году – была полностью снята блокада Ленинграда. В 2024 году отмечается 80-летие этого события.

Специалистами университета было обработано свыше 26 часов разговоров. Для них лингвисты составили социолингвистическую разметку, определили пол, возраст, примерный регион происхождения и родной язык интервьюируемых. По словам экспертов, приведенные признаки оказывают существенное влияние на то, с каким акцентом люди говорят, какую лексику используют, а также насколько качественно их речь будет распознаваться автоматическими моделями.

Исследователи пояснили, что данную технологию можно применять и к записям других людей. Однако важно понимать, что качество распознавания может быть немного хуже по причине различных условий записи, а также в том случае, если данная речь была слабо представлена в выборке, как, к примеру, детская речь.