Методы интеллектуальной обработки данных для коррекции атипичных значений котировок акций
https://doi.org/10.21686/2500-3925-2022-2-4-13
Аннотация
Цель исследования. Цель исследования состоит в проведении сравнительного анализа различных методов коррекции атипичных значений статистических данных на фондовом рынке и выработке рекомендаций для их использования.
Материалы и методы. В статье проведен анализ российской и зарубежной библиографии по проблеме исследования. Предлагается рассмотрение методов машинного обучения для обнаружения и коррекции выбросов во временных рядах. Математическую основу методов машинного обучения составляют метод Z-score, метод изолирующего леса, метод опорных векторов для обнаружения выбросов и методы винсоризации и множественного вменения для коррекции выбросов. Для построения моделей использован программный инструмент Jupyter Notebook, поддерживающий язык программирования Python. Для реализации методов машинного обучения используются данные котировок акций Московской биржи.
Результаты. Продемонстрированы результаты работы алгоритмов машинного обучения для наборов реальных статистических данных, представляющих собой цены закрытия акций трех российских компаний «Сбербанк», «Аэрофлот», «Газпром» в период с 01.12.2019 по 30.11.2020, полученные с сайта с сайта Инвестиционной компании «ФИНАМ». Проведен сравнительный анализ методов обнаружения и коррекции выбросов по среднеквадратическому отклонению. Для использованных в работе исходных данных лучший результат показала реализация алгоритма множественного вменения по обнаруженным выбросам методом опорных векторов.
Заключение. В теории анализа данных нет универсального метода обнаружения и/или устранения выбросов. В общем случае определение выбросов субъективно, и решение принимается индивидуально для каждого конкретного набора данных с учетом его особенностей или имеющегося опыта в данной области. Реализованные в работе методы обнаружения и устранения выбросов могут найти применение при вычислении более точных значений показателей в различных сферах деятельности, например, для построения более точного прогноза цены акции. В перспективе планируется исследование влияния параметров методов обнаружения и коррекции выбросов на результаты работы моделей, а также оптимизация этих параметров.
Об авторах
Т. В. ЗолотоваРоссия
Татьяна Валерьяновна Золотова Д.ф.-м.н., профессор
Москва
Д. А. Волкова
Дарья Александровна Волкова
Москва
Список литературы
1. Ардан С. Д. Прогнозирование банкротства методами машинного обучения // Информационное общество. 2021. № 1. С. 56–67.
2. Девянин И.С. Предварительная обработка данных для машинного обучения // Фундаментальные и прикладные исследования в физике, химии, математике и информатике. 2021. С. 117–121.
3. Копырин А.С., Видищева Е.В. Оценка влияния аномалий на результаты анализа массивов экономических данных // Modern Economy Success. 2021. № 2. С. 235–240.
4. Чернова В.В. Применение методов машинного обучения для выявления аномалий с банковскими картами // МНСК-2021. 2021. С. 107–107.
5. Шибзуков З.М. О принципе минимизации эмпирического риска на основе усредняющих агрегирующих функций // Доклады Академии наук. 2017. Т. 476. № 5. С. 495–499.
6. Aggarwal C.C. Outlier analysis. Springer Science & Business Media. 2013. 455 с.
7. Aguinis H., Gottfredson R.K., Joo H. Bestpractice recommendations for defining, identifying, and handling outliers // Organizational Research Methods. 2013. Т. 16. № 2. С. 270–301.
8. Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey // ACM Computing Surveys. 2009. Т. 41. № 3. С. 15–58.
9. Cousineau D., Chartier S. Outliers detection and treatment: A review // International Journal of Psychological Research. 2010. Т. 23. № 1. С. 59–68.
10. Cunningham P., Cord M., Delan, S. J. Supervised Learning // Machine Learning Techniques for Multimedia. Springer Berlin Heidelberg. 2008. С. 21–49.
11. Fei T.L., Kai M.T., Zhi-Hua Zhou. Isolation Forest // 2008 Eighth IEEE International Conference on Data Mining. 2008.
12. Frey B.B. The SAGE Encyclopedia of Educational Research, Measurement, and Evaluation. 2018.
13. Gorelik V., Zolotova T. Method of Parametric Correction in Data Transformation and Approximation Problems // Lecture Notes in Computer Science (LNCS). Springer. Т. 12422. С. 122–133.
14. Hodge V., Austin J. A survey of outlier detection methodologies // Artificial Intelligence Review. 2004. Т. 22. № 2. С. 85–126.
15. Khan S.I., Hoque A.S. M.L. SICE: an improved missing data imputation technique. J Big Data. 2020. № 7. Article number 37.
16. Omar S., Ngadi A., Jebur H. Machine Learning Techniques for Anomaly Detection: An Overview // International Journal of Computer Applications. 2013. Т. 79. № 2. С. 33–41.
17. Patcha A., Park J. M. An overview of anomaly detection techniques: Existing solutions and latest technological trends // Computer Networks. 2007. Т. 51. № 12. С. 3448–3470.
18. Rousseeuw PJ, Hubert M. Robust statistics for outlier detection. Wiley Interdiscip Rev Data Min Knowl Discov. 2011. № 1(1). С. 73–9.
19. Zimek A., Filzmoser P. There and back again: Outlier detection between statistical reasoning and data mining algorithms // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 2018. Т. 8. № 6. С. 73–79.
20. Инвестиционная компания «ФИНАМ» [Электрон. ресурс]. Режим доступа: https://www.finam.ru/.
Рецензия
Для цитирования:
Золотова Т.В., Волкова Д.А. Методы интеллектуальной обработки данных для коррекции атипичных значений котировок акций. Статистика и Экономика. 2022;19(2):4-13. https://doi.org/10.21686/2500-3925-2022-2-4-13
For citation:
Zolotova T.V., Volkova D.A. Intelligent Data Processing Methods for the Atypical Values Correction of Stock Quotes. Statistics and Economics. 2022;19(2):4-13. (In Russ.) https://doi.org/10.21686/2500-3925-2022-2-4-13