Аналитическая оценка результатов проверки выпускных квалификационных работ студентов средствами систем обнаружения текстовых заимствований
https://doi.org/10.21686/2500-3925-2019-2-57-64
Аннотация
Цель исследования. Цель представленной статьи – аналитическое сравнение результатов обработки выпускных квалификационных работ бакалавров и магистров кафедры Высшей математики Института кибернетики Российского технологического университета (МИРЭА) летом 2018 года с помощью двух систем обнаружения текстовых заимствований: Антиплагиат и Руконтекст. Исследование является актуальным в связи с развитием информационных технологий в образовании и возрастающей популярностью механизмов анализа текста на наличие заимствований путем автоматизированной проверки. Системы, разработанные с целью автоматизации обнаружения текстовых заимствований в различных видах работ, созданы с целью усовершенствования образовательного процесса, упрощения процедуры проверки студенческих работ преподавателями, соблюдения авторских прав, и ориентированы на развитие академической честности. Материалы и методы. Математический анализ результатов был произведен на основе методов математической статистики, непосредственно в вычислительном эксперименте применён пакет статистической обработки данных языка R. Результаты. В представленном исследовании был проведен педагогический эксперимент по статистическому анализу взаимосвязей характеристик выпускных квалификационных работ бакалавров и магистров кафедры Высшей математики Института кибернетики Российского технологического университета (РТУ МИРЭА) летом 2018 года: выявлены зависимости между параметрами, характеризующими конкретного студента, статистическими параметрами, описывающими его работу, и процентом оригинальности, полученным в системах проверки выпускных квалификационных работ на наличие текстовых заимствований Антиплагиат и Руконтекст. Произведено сравнение результатов, полученных при анализе выпускных квалификационных работ в разных системах. Формируются выводы о преимуществах каждой из рассматриваемых систем. При рассмотрении разницы между процентом оригинальности, полученным в системах Антиплагиат и Руконтекст, было выявлено, что с ростом длины текста работы (количества слов) растёт разница между результатами, полученными в этих системах. Заключение. При поиске взаимосвязи между процентом оригинальности работы и статистическими параметрами, описывающими работу, а также доступными параметрами, характеризующими автора, оказалось, что тип зависимости для двух рассматриваемых систем совпадает, и масштаб коэффициентов одинаков. Различия наблюдаются в конкретном наборе параметров: зависимость оригинальности работы от характеристик студентов при использовании системы Руконтекст лучше описывается параметром пола, а в результатах системы Антиплагиат – уровнем образования. Это можно объяснить разным наполнением баз: в базах Антиплагиата больше студенческих работ. Также разные параметры лучше описывают зависимость процента оригинальности от длины текста: для Антиплагиата лучший результат получен при использовании количества символов, а для Руконтекст – числа слов. Эти зависимости, по-видимому, объясняются различными техническими алгоритмами поиска заимствований в тексте. Также в исследовании рассмотрена статистическая зависимость между оригинальностью, полученной в каждой из систем.
Об авторах
Д. А. ПетрусевичРоссия
К.ф.-м.н., доцент кафедры Высшей математики Института кибернетики
К. Д. Шахардин
Россия
Ведущий инженер-программист отдела образовательных информационных технологий
Список литературы
1. Айвазян С.А. Прикладная статистика. Основы эконометрики. Том 2. М.: Юнити-Дана, 2001. 432 с.
2. Stock J.H., Watson M.W. Introduction to Econometrics. 3rd Edition. Pearson, Cloth, 2015. 840 p. ISBN 13: 9780133486872
3. Кремер Н.Ш., Путко Б.А. Эконометрика. 3-е изд., перераб. и доп. М.: Юнити-Дана, 2010. 328 с.
4. Stein R.A., Jaques P.A., Valiati J.F. An analysis of hierarchical text classification using word embeddings // Information Sciences. 2019. Vol. 471. P. 216–232.
5. Ke X., Zeng Y., Ma Q., Zhu L. Complex dynamics of text analysis // Physica A: Statistical Mechanics and its Applications. 2014. Vol. 415. P. 307–314.
6. Jones-Diette J.S., Dean R.S., Cobb M., Brennan M.L. Validation of text-mining and content analysis techniques using data collected from veterinary practice management software systems in the UK // Preventive Veterinary Medicine. 2019. Vol. 167. P. 61–67.
7. Hu N., Zhang T., Gao B., Bose I. What do hotel customers complain about? Text analysis using structural topic model // Tourism Management 2019. Vol. 72. P. 417–426.
8. Parinov S. CRIS with in-text citations as interactive entities // Procedia Computer Science. 2019. Vol. 146. P. 20–28.
9. Chen Y.-T., Chen M.C. Using chisquare statistics to measure similarities for text categorization // Expert Systems with Applications. 2011 Vol. 38(4). P. 3085–3090.
10. Петрусевич Д.А. Некоторые проблемы поиска и использования тематического моделирования при обнаружении заимствований // Сборник научных трудов Международной научно-практической конференции «Электронные системы обнаружения заимствований в оказании услуг для различных сегментов рынка». Липецк: Институт развития образования, 2016. С. 133–136.
11. Золкина А.В., Ломоносова Н.В. Опыт экспертизы выпускных квалификационных работ студентов НИТУ «МИСиС» путем обнаружения текстовых заимствований // Педагогическая информатика. 2018. № 2. С. 45–50.
12. Золкина А.В., Ломоносова Н.В. Административные особенности проверки научно-исследовательских работ в вузе на наличие текстовых заимствований // Сборник научных трудов Международной научно-практической конференции «Электронные системы обнаружения заимствований в оказании услуг для различных сегментов рынка», 27–28 октября 2016 г. Липецк: Институт развития образования, 2016. С. 87–89.
13. Чехович Ю.В., Беленькая О.С. О практике обнаружения заимствований в российских вузах // Университетская книга. 2017. №4. С. 74 – 75.
14. Воробьев М.В. Процедура выявления содержательных заимствований: противоречия гражданского права и административного права // История, теория, практика российского права. 2018. №11. С. 6 – 13.
15. Скаковская Л.Н., Медведева О.Н., Мидоренко Д.А. Использование информационных систем при оценке качества квалификационных работ // Высшее образование в России. 2015. № 5. С. 110 – 114.
16. Авдеева Н.В., Сусь И.В. Роль эксперта в оценке качества научных документов с помощью программных систем // Информационные ресурсы России. 2016. № 6 (154). С. 2–5.
17. Золкина А.В., Шахардин К.Д. Критический взгляд на использование систем автоматизированной проверки текста на заимствования // Сборник научных трудов Международной научно-практической конференции «Электронные системы обнаружения заимствований в оказании услуг для различных сегментов рынка». Липецк: Институт развития образования, 2016. С. 24–27.
18. Chatterjee A., Gupta U., Chinnakotla M.K., Srikanth R., Galley M., Argawal P. Understanding Emotions in Text Using Deep Learning and Big Data // Computers in Human Behavior. 2019. Vol. 93. P. 309–317.
19. Li X., Wang Y., Zhang A., Li C., Chi J., Ouyang J. Filtering out the noise in short text topic modeling // Information Sciences. 2018. Vol. 456. P. 83–96.
20. Chen Y., Znahg H., Liu R., Ye Z., Lin J. Experimental explorations on short text topic mining between LDA and NMF based Schemes // Knowledge-Based Systems. 2019. Vol. 163. P. 1–13.
21. Chi J., Ouyang J., Li C., Dong X., Li X., Wang X. Topic representation: Finding more representative words in topic models // Pattern Recognition Letters. 2019. Vol. 123. P. 53–60.
Рецензия
Для цитирования:
Петрусевич Д.А., Шахардин К.Д. Аналитическая оценка результатов проверки выпускных квалификационных работ студентов средствами систем обнаружения текстовых заимствований. Статистика и Экономика. 2019;16(2):57-64. https://doi.org/10.21686/2500-3925-2019-2-57-64
For citation:
Petrusevich D.A., Shakhardin K.D. Analysis of student’s final qualification theses using text loans detection systems. Statistics and Economics. 2019;16(2):57-64. (In Russ.) https://doi.org/10.21686/2500-3925-2019-2-57-64