Ученые из петербургского университета ИТМО нашли способ модернизировать систему поиска украденных фрагментов в научных работах. На все про все специалистам потребовалось два дня.

Системы антиплагиата до сих пор были не слишком точны. В смысле эффективность таких систем оценивалась не достаточно объективно. Усовершенствовали механизм оценки эксперты ИТМО Антон Белый и Дмитрий Некрасов.

«Перед тем, как заняться оценкой алгоритмов плагиата, мы много работали над самими алгоритмами. Все началось с хакатона Hack the Plagiarizer!, который проходил в ИТМО в 2017 году», — цитирует ИТМО Антона Беглого.

Первым этапом стало задание – определить точные границы заимствований. Впоследствии это подтолкнуло петербургских ученых перейти в так называемую «высшую лигу», то есть принять участие в популярных международных соревнованиях.

Во время подготовки статьи для участия в конкурсе ученые ИТМО заметили, что их алгоритм показывает слишком уж хорошие результаты. Поначалу Белый и Некрасов решили, что это их алгоритм такой хороший, сомнения пришли за два дня но последнего срока сдачи статьи на конкурс.

«Оказалось, что оценка эффективности работы алгоритма может быть завышена из-за особенности плагиата-пересказа: объем скопированной части источника всегда будет намного больше объема скопированной части в документе-плагиатора»,
— констатировал Дмитрий Некрасов.

В результате за оставшиеся 48 часов петербургские ученые с нуля переписали конкурсную статью и переделали свой алгоритм. «В частности, описание метрик с микроусреднением, которые полезны, если наборы данных состоят из несбалансированных по длине документов», — уточнил Антон Белый.

В перспективе эксперты из ИТМО хотят сконцентрироваться на использовании нейронных сетей в своих исследованиях.