Ученые из петербургского университета ИТМО нашли способ модернизировать систему поиска украденных фрагментов в научных работах. На все про все специалистам потребовалось два дня.
«Перед тем, как заняться оценкой алгоритмов плагиата, мы много работали над самими алгоритмами. Все началось с хакатона Hack the Plagiarizer!, который проходил в ИТМО в 2017 году», — цитирует ИТМО Антона Беглого.
Первым этапом стало задание – определить точные границы заимствований. Впоследствии это подтолкнуло петербургских ученых перейти в так называемую «высшую лигу», то есть принять участие в популярных международных соревнованиях.
Во время подготовки статьи для участия в конкурсе ученые ИТМО заметили, что их алгоритм показывает слишком уж хорошие результаты. Поначалу Белый и Некрасов решили, что это их алгоритм такой хороший, сомнения пришли за два дня но последнего срока сдачи статьи на конкурс.
«Оказалось, что оценка эффективности работы алгоритма может быть завышена из-за особенности плагиата-пересказа: объем скопированной части источника всегда будет намного больше объема скопированной части в документе-плагиатора»,— констатировал Дмитрий Некрасов.
В результате за оставшиеся 48 часов петербургские ученые с нуля переписали конкурсную статью и переделали свой алгоритм. «В частности, описание метрик с микроусреднением, которые полезны, если наборы данных состоят из несбалансированных по длине документов», — уточнил Антон Белый.
В перспективе эксперты из ИТМО хотят сконцентрироваться на использовании нейронных сетей в своих исследованиях.