Ученые СПбГУ научили нейросеть распознавать речь жертв Холокоста

Нейросеть Wav2Vec 2.0 модифицировали до того уровня, что теперь она умеет распознавать речь людей, которые рассказывают о сильнейшем эмоциональном потрясении, пережитым ими. Лингвисты Санкт-Петербургского государственного университета обучили нейросеть на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва‑Шем.

Распознавание эмоциональной речи является наиболее важной задачей для сферы общения человека и компьютерных автоматических систем, так как за счет успешного распознавания речи можно в автоматическом режиме формировать субтитры, генерировать пересказ основных мыслей видео, а также без особых усилий переводить его в текстовый формат. На сегодняшний день современные технологии и так позволяют распознавать человеческую речь, однако в том случае, когда она насыщена эмоциями, задача становится в разы сложнее.

Иной раз даже живому человеку бывает непросто разобраться, что говорится в аудиозаписях разговоров, во время которых собеседники слишком ярко выражают свои эмоции. К примеру, плачут или кричат. Сильно упростить и ускорить процесс создания подстрочных субтитров к интервью с людьми, пережившими эмоциональное потрясение, могло бы повышение качества работы систем, с помощью которых можно анализировать сказанное.

Как это работает?

В Петербургском университете специалисты создали нейросеть, позволяющую не только распознавать содержание сказанного, но и в точности определять эмоции, испытываемые людьми в процессе интервью.

Магистрант СПбГУ (кафедра математической лингвистики) Михаил Долгушин пояснил, что в работе ученые использовали предобученную на русском языке глубокую нейросеть Wav2Vec 2.0. Она работает по принципу того, чтобы выучить сопоставление каждого звука устной человеческой речи с соответствующей буквой алфавита. Именно эта архитектура нейросети использует в своей работе и – так называемый – механизм внимания, позволяющий научиться фокусировать внимание на значимых для определения той или иной буквы по звуку признаках. Это и повышает качество результата на значительном уровне, сообщает пресс-служба СПбГУ.

Для того, чтобы решить поставленную задачу, ученые университета использовали выложенную в свободный доступ русскоязычную модель распознавания речи профессора Новосибирского государственного университета Ивана Бондаренко. Работоспособность созданной в СПбГУ нейросети было решено проверить на материалах интервью с жертвами Холокоста. Они имеются в публичном доступе и были выложены израильским государственным национальным мемориалом Яд ва‑Шем. Мемориал свыше 50 лет собирал видеосвидетельства людей, переживших Холокост. В них люди рассказывают о событиях, свидетелями которых стали сами: оккупации городов, массовых убийствах, жизни в гетто и так далее.

27 января отмечается Международный день памяти жертв Холокоста. В 1945 году в этот день советские войска смогли освободить нацистский концентрационный лагерь «Освенцим», а также в этот же день – в 1944 году – была полностью снята блокада Ленинграда. В 2024 году отмечается 80-летие этого события.

Специалистами университета было обработано свыше 26 часов разговоров. Для них лингвисты составили социолингвистическую разметку, определили пол, возраст, примерный регион происхождения и родной язык интервьюируемых. По словам экспертов, приведенные признаки оказывают существенное влияние на то, с каким акцентом люди говорят, какую лексику используют, а также насколько качественно их речь будет распознаваться автоматическими моделями.

Исследователи пояснили, что данную технологию можно применять и к записям других людей. Однако важно понимать, что качество распознавания может быть немного хуже по причине различных условий записи, а также в том случае, если данная речь была слабо представлена в выборке, как, к примеру, детская речь.

Ученые СПбГУ научили нейросеть распознавать речь жертв Холокоста

Как это работает?

ГК «ПСК» закрепилась в топ-3 девелоперов Северной столицы

В Московском районе Петербурга сданы первые дома жилого квартала «Плюс Пулковский»

Новости дня

Свыше миллиона иранцев мобилизовали на случай наземной операции США

Пулково снова приостановил работу

Пулково принимает и отправляет рейсы по согласованию

Трамп еще на 10 дней отложил обещание уничтожить все электростанции Ирана

Роскомнадзор прокомментировал слухи о возможной блокировке «Дуолинго»

Президент Ирана Пезешкиан на русском языке поблагодарил Путина и Россию

В Петербурге на 3 млн рублей оштрафовали телеканал Триколор за фильм с ложью о солдатах Красной армии

В Пулково сняли ограничения на полеты

В Москве мошенники убедили девочку оставить ключ в цветочном горшке и вынесли из квартиры 18 млн рублей

Дрозденко: над Ленобластью сбили два БПЛА

Первым на Москву из-за ограничений в Пулково ушел рейс «России»

Тело женщины обнаружили в Фонтанке

БПЛА сбили утром над Тихвинским районом

Подросток поджег банкомат в отделении банка на юго-западе Москвы

Под Калининградом «искавший жертву» водитель на родительском авто изрезал сотрудницу АЗС

Реки и каналы Петербурга планируют открыть для маломерных судов с 13 апреля

В ГМЗ «Царское Село» завершается монтаж китайских панно в Зубовском флигеле

Суд в Москве оштрафовал «Дуолинго» на 2 млн рублей за нарушение закона о персональных данных

В Ленобласти третий раз за сутки объявлена опасность БПЛА

Тотальный диктант можно будет написать на 26 языках

Т2 заняла первое место по успешности загрузки в питерской подземке

Сотрудник Эрмитажа Бутягин пишет письма из польского СИЗО: избранные цитаты

В Ленобласти спустя три часа отменили воздушную опасность

По теме

На Васильевском острове появились новые съезды с ЗСД

В суд Петербурга из Луганска поступило административное дело о помощнике Милонова

Петербуржец получил 10 суток ареста за то, что швырнул торт в лицо подростку и всех обматерил

Подпишись на соцсети:

Сообщить новость