17:40, 22 Ноя 2024, Пт

Дата:

Поделиться:

Ученые СПбГУ научили нейросеть распознавать речь жертв Холокоста

Нейросеть Wav2Vec 2.0 модифицировали до того уровня, что теперь она умеет распознавать речь людей, которые рассказывают о сильнейшем эмоциональном потрясении, пережитым ими. Лингвисты Санкт-Петербургского государственного университета обучили нейросеть на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва‑Шем.

Распознавание эмоциональной речи является наиболее важной задачей для сферы общения человека и компьютерных автоматических систем, так как за счет успешного распознавания речи можно в автоматическом режиме формировать субтитры, генерировать пересказ основных мыслей видео, а также без особых усилий переводить его в текстовый формат. На сегодняшний день современные технологии и так позволяют распознавать человеческую речь, однако в том случае, когда она насыщена эмоциями, задача становится в разы сложнее.

Иной раз даже живому человеку бывает непросто разобраться, что говорится в аудиозаписях разговоров, во время которых собеседники слишком ярко выражают свои эмоции. К примеру, плачут или кричат. Сильно упростить и ускорить процесс создания подстрочных субтитров к интервью с людьми, пережившими эмоциональное потрясение, могло бы повышение качества работы систем, с помощью которых можно анализировать сказанное.

Как это работает?

В Петербургском университете специалисты создали нейросеть, позволяющую не только распознавать содержание сказанного, но и в точности определять эмоции, испытываемые людьми в процессе интервью.

Магистрант СПбГУ (кафедра математической лингвистики) Михаил Долгушин пояснил, что в работе ученые использовали предобученную на русском языке глубокую нейросеть Wav2Vec 2.0. Она работает по принципу того, чтобы выучить сопоставление каждого звука устной человеческой речи с соответствующей буквой алфавита. Именно эта архитектура нейросети использует в своей работе и – так называемый – механизм внимания, позволяющий научиться фокусировать  внимание на значимых для определения той или иной буквы по звуку признаках. Это и повышает качество результата на значительном уровне, сообщает пресс-служба СПбГУ.

Для того, чтобы решить поставленную задачу, ученые университета использовали выложенную в свободный доступ русскоязычную модель распознавания речи профессора Новосибирского государственного университета Ивана Бондаренко. Работоспособность созданной в СПбГУ нейросети было решено проверить на материалах интервью с жертвами Холокоста. Они имеются в публичном доступе и были выложены израильским государственным национальным мемориалом Яд ва‑Шем. Мемориал свыше 50 лет собирал видеосвидетельства людей, переживших Холокост. В них люди рассказывают о событиях, свидетелями которых стали сами: оккупации городов, массовых убийствах, жизни в гетто и так далее.

27 января отмечается Международный день памяти жертв Холокоста. В 1945 году в этот день советские войска смогли освободить нацистский концентрационный лагерь «Освенцим», а также в этот же день – в 1944 году – была полностью снята блокада Ленинграда. В 2024 году отмечается 80-летие этого события.

Специалистами университета было обработано свыше 26 часов разговоров. Для них лингвисты составили социолингвистическую разметку, определили пол, возраст, примерный регион происхождения и родной язык интервьюируемых. По словам экспертов, приведенные признаки оказывают существенное влияние на то, с каким акцентом люди говорят, какую лексику используют, а также насколько качественно их речь будет распознаваться автоматическими моделями.

Исследователи пояснили, что данную технологию можно применять и к записям других людей. Однако важно понимать, что качество распознавания может быть немного хуже по причине различных условий записи, а также в том случае, если данная речь была слабо представлена в выборке, как, к примеру, детская речь.

Подпишитесь на наш официальный Telegram-канал «МОЙКА78 Новости СПб». Мы покажем и расскажем Вам, как и чем живёт Петербург. Будет интересно!

Поделиться:

Торговая сеть «Пятёрочка» запустила акцию «Скидка за пятёрку!», которая действует с 1 по 28 октября во всех магазинах. За хорошие оценки школьники получат скидку 20% на продукцию для перекусов, а также примут участие в розыгрыше ценных призов. Активные ученики смогут побороться в соцсетях за 1 млн рублей на обустройство школы.Ученье - свет«Пятёрочка» рядом, чтобы выручать каждого учащегося в новом учебном году. Как именно? Есть сразу несколько ответов:хорошие оценки торговая сеть поощряет, в магазинах всегда можно совершить полезные покупки для школы, ещё и подарки разыгрывает.Получайте новые знания, проявляйте активность и старания будут вознаграждены.Подарки за пятёрки и не толькоЕсли юный гость в период проведения акции покажет на кассе дневник с хотя бы одной оценкой «отлично», то ему предоставят скидку 20%...
Цифровая экосистема МТС установила дополнительные базовые станции стандарта LTE в Красногвардейском, Калининском, Невском, Выборгском районах и населенных пунктах под Всеволожском, которые позволили расширить покрытие, емкость 4G и ускорить мобильный интернет.Новые скорости охватывают северное и северо-восточное направления Петербурга и его пределы: улицы Сантьяго-де-Куба, Латышских стрелков, Верности, Ивана Фомина, Белорусская, Челябинская, Ржевская, проспект Просвещения, а также населенные пункты Всеволожского района Ленинградской области.Улучшения заметили сотни тысяч жителей многоквартирных домов, проезжающие мимо автомобилисты, отдыхающие в близлежащих скверах и парках. Расширяя телеком-инфраструктуру МТС уделяет внимание не только спальным районам, но и точкам притяжения.«Связь и доступ к «цифре» важны везде — и в жилых массивах, и на транспортных артериях — везде жителям и гостям Петербурга и Ленобласти необходим цифровой комфорт», — отметил директор МТС в...