Нейросеть Wav2Vec 2.0 модифицировали до того уровня, что теперь она умеет распознавать речь людей, которые рассказывают о сильнейшем эмоциональном потрясении, пережитым ими. Лингвисты Санкт-Петербургского государственного университета обучили нейросеть на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва‑Шем.
Иной раз даже живому человеку бывает непросто разобраться, что говорится в аудиозаписях разговоров, во время которых собеседники слишком ярко выражают свои эмоции. К примеру, плачут или кричат. Сильно упростить и ускорить процесс создания подстрочных субтитров к интервью с людьми, пережившими эмоциональное потрясение, могло бы повышение качества работы систем, с помощью которых можно анализировать сказанное.
Как это работает?
В Петербургском университете специалисты создали нейросеть, позволяющую не только распознавать содержание сказанного, но и в точности определять эмоции, испытываемые людьми в процессе интервью.
Для того, чтобы решить поставленную задачу, ученые университета использовали выложенную в свободный доступ русскоязычную модель распознавания речи профессора Новосибирского государственного университета Ивана Бондаренко. Работоспособность созданной в СПбГУ нейросети было решено проверить на материалах интервью с жертвами Холокоста. Они имеются в публичном доступе и были выложены израильским государственным национальным мемориалом Яд ва‑Шем. Мемориал свыше 50 лет собирал видеосвидетельства людей, переживших Холокост. В них люди рассказывают о событиях, свидетелями которых стали сами: оккупации городов, массовых убийствах, жизни в гетто и так далее.
27 января отмечается Международный день памяти жертв Холокоста. В 1945 году в этот день советские войска смогли освободить нацистский концентрационный лагерь «Освенцим», а также в этот же день – в 1944 году – была полностью снята блокада Ленинграда. В 2024 году отмечается 80-летие этого события.
Исследователи пояснили, что данную технологию можно применять и к записям других людей. Однако важно понимать, что качество распознавания может быть немного хуже по причине различных условий записи, а также в том случае, если данная речь была слабо представлена в выборке, как, к примеру, детская речь.