Метод главных компонент для взвешенных данных в процедуре многомерного статистического прогнозирования
https://doi.org/10.21686/2500-3925-2021-2-4-11
Аннотация
Цель исследования. Предположим, что исследуется динамика состояния некоторого объекта. Его состояние описывается системой заданных показателей. Среди них могут быть показатели, являющиеся линейной комбинацией других. Целью любой процедуры прогнозирования является решение двух задач: во-первых, оценка ожидаемого прогнозного значения, во-вторых, оценка доверительного интервала для возможных других прогнозных значений. Процедура прогнозирования многомерная. Так как показатели описывают один и тот же объект, то кроме явных зависимостей среди них могут быть и не явные. Метод главных компонент эффективно учитывает вариацию данных в системе исследуемых показателей. Следовательно, данный метод желательно использовать в процедуре прогнозирования. Итоги прогнозирования были бы более адекватными, если бы была возможность реализовывать разные стратегии прогнозирования. Но это потребует модификации традиционного метода главных компонент. Поэтому это является главной целью данного исследования. Сопутствующей целью является исследование возможности решения второй задачи прогнозирование, которая является сложнее первой.
Материалы и методы. При оценке доверительного интервала необходимо обозначить процедуру оценки ожидаемого прогнозного значения. При этом полезно было бы использовать методы многомерных временных рядов. Обычно при этом различные модели временного ряда используют понятие временного лага. Их количество и весовая значимость в модели может быть разная. В данном исследовании предлагается модель временного ряда на основе метода экспоненциального сглаживания. Процедура прогнозирования многомерная. Она будет опираться на правило согласованного изменения данных. Поэтому алгоритм прогнозной оценки отдельного показателя представлен в виде, который будет удобен для построения и практической использования данного правила в будущем. Метод главных компонент должен учитывать веса значений показателей. Это необходимо для реализации различных стратегий оценки границ интервала прогнозных значений. Предлагаемая стандартизация взвешенных данных способствует выполнению основной теоремы факторного анализа. За счет этого обеспечивается построение ортонормированного базиса в факторном пространстве. При этом не потребовалось строить итерационный алгоритм, характерный для подобных исследований.
Результаты. Для тестового набора данных проведены сравнительные расчеты традиционным и взвешенным методом главных компонент. Он показывает, что основные характеристики компонентного анализа сохраняются. Один из рассматриваемых показателей явно зависит от других. Поэтому оба методы показывают, что количество факторов меньше чем количество показателей. Все показатели имеют хорошую связь с факторами. В традиционном методе зависимый показатель входит в первую главную компоненту. В модифицированном методе этот показатель лучше связан со второй компонентой.
Заключение. Было показано, что элементы факторной матрицы, соответствующие прогнозному времени, могут быть выражены как средневзвешенные предыдущих факторных значений. Это позволит оценить границы доверительного интервала для каждого отдельного показателя, а также для комплексного показателя всей системы. При этом учитывается как согласованность изменения данных, так и стратегия прогнозирования.
Об авторах
В. В. НикитинРоссия
Виктор Васильевич Никитин - К.ф.-м.н., доцент, профессор кафедры актуарной и финансовой математики
Чебоксары
SPIN-код: 7897-7335
Д. В. Бобин
Россия
Дмитрий Витальевич Бобин - Старший преподаватель кафедры актуарной и финансовой математики
Чебоксары
Список литературы
1. Зайцев С.А., Сысоев А.П. Прогнозирование скоростной модели по данным ГИС // Технологии сейсморазведки. 2016. № 4. С. 56–60.
2. Gan S.O., Ahmad S. Multiple Linear Regression to Forecast Balance of Trade // Journal of Fundamental Sciences. 2011. Т. 7. № 2. С. 150–155.
3. Никитин В.В., Данилов И.П., Назаров А.А., Бобин Д.В. Комплексная модельная оценка финансового состояния предприятия // Региональная экономика: теория и практика. 2018. Т. 16. № 3. С. 551–566.
4. Хеннан Э. Многомерные временные ряды: Пер. с англ. М.: Издательство «МИР», 1974. 576 с.
5. Wang L. Advanced Multivariate Time Series Forecasting Models // Journal of Mathematics and Statistics. 2018. Т. 14. С. 253–260.
6. Борисов В.В., Луферов В.С. Метод многомерного анализа и прогнозирования состояния сложных систем и процессов на основе нечетких когнитивных темпоральных моделей // Системы управления, связи и безопасности. 2020. № 2. С. 1–23.
7. Матвеев М.Г., Сирота Е.А. Комбинированные модели нестационарных временных рядов с изменяющимися состояниями // Вестник ВГУ. Серия: Системный анализ и информационные технологии. 2016. № 3. С. 50–81.
8. Pearson K. On Lines and Planes of Closest Fit to Systems of Points in Space // Philosophical Magazine. 1901. Т. 2. № 6. С. 559–572.
9. Gorban A., Kegl B., Wunsch D., Zinovyev A. ed. Principal Manifolds for Data Visualisation and Dimension Reduction. LNCSE 58, Springer, Berlin – Heidelberg – New York, 2007. 330 с.
10. Галиаскаров М.Р., Русинов Л.А. Система диагностики на базе нелинейного метода главных компонент и дискриминантного анализа Фишера // Известия СПбГТИ(ТУ). 2016. № 33. С 91–96.
11. Belyavskiy G.I., Puchkov E.V. Nonlinear Principal Component Analysis Approach to Pattern Recognition // Modeling of Artificial Intelligence. 2016. Т. 9. № 1. С. 24–32.
12. Сидоренко А.В., Шакинко И.В. Модифицированный метод главных компонент при шифровании изображений с использованием динамического хаоса // Вестник БГУ. Серия 1: Физика. Математика. Информатика. 2014. № 3. С. 25–29.
13. Монахова Ю.Б., Цикин А.М., Муштакова С.П. Метод независимых компонент как альтернатива методу главных компонент и дискриминантным алгоритмам в обработке спектрометрических данных // Журнал аналитической химии. 2015. Т. 70. № 9. С. 1055–1061.
14. Kairov U., Cantini L., Greco A, Molkenov A., Czerwinska U., Barillot E., Zinovyev A. Determining the optimal number of independent components for reproducible transcriptomic data analysis // BMC Genomics. 2017. № 18(1). С. 7–12.
15. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы для экономистов и менеджеров: Учебник. М.: Финансы и статистика, 2003. 352 с.
16. Никитин В.В., Бобин Д.В., Назаров А.А. Рейтинг инвестиционного потенциала регионов Российской Федерации: многомерный статистический анализ // Экономика, статистика и информатика. Вестник УМО. 2014. № 3. С. 132–138.
17. Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks // Science. 2006. № 313(5786). С. 504–507.
18. Поляк Б.Т., Хлебников М.В. Метод главных компонент: робастные версии // Автоматика и телемеханика. 2017. № 3. С. 130–148
19. Croux C., Haesbroeck G. Principal Component Analysis Based on Robust Estimators of the Covariance or Correlation Matrix: Influence Functions and Efficiencies // Biometrika. 2000. Т. 87. № 3. С. 603–618.
20. Бурнаев Е.В., Чернова С.C. Об итеративном алгоритме подсчета взвешенных главных компонент // Информационные процессы. 2008. Т. 8. № 2. С. 99–107.
21. Delchambre L. Weighted principal component analysis: a weighted covariance eigendecomposition approach // Monthly Notices of the Royal Astronomical Society. 2014. № 446(2). С. 3545–3555.
22. Van Deun K., Thorrez L., Coccia M., Hasdemir D., Westerhuis J.A., Smilde A.K., Van Mechelen I. Weighted sparse principal component analysis // Chemometrics and Intelligent Laboratory Systems. 2019. Т. 195. С. 1–13. DOI: 10.1016/j.chemolab.2019.103875.
23. Гантмахер Ф.Р. Теория матриц. М.: Издательская фирма «Физико-математическая литература», 2010. 560 с.
24. Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шефер М. Многомерный статистический анализ в экономике: Учебное пособие / Под ред. В.Н. Тамашевича. М.: ЮНИТИ-ДАНА, 1999. 598 с.
25. Никитин В.В., Бобин Д.В., Назаров А.А. Алгоритм построения показателя комплексной оценки объекта исследования [Электрон. ресурс] // Проблемы и перспективы развития социально-экономического потенциала российских регионов: Материалы 8-й Всероссийской научно-практической конференции (13 декабря 2019г., Чебоксары, Россия). Чебоксары: Издательство Чувашского университета, 2019. С. 242–246. Режим доступа: https://www.elibrary.ru/item.asp?id=41869567.
Рецензия
Для цитирования:
Никитин В.В., Бобин Д.В. Метод главных компонент для взвешенных данных в процедуре многомерного статистического прогнозирования. Статистика и Экономика. 2021;18(2):4-11. https://doi.org/10.21686/2500-3925-2021-2-4-11
For citation:
Nikitin V.V., Bobin D.V. Principal Component Analysis for Weighted Data in the Procedure of Multidimensional Statistical Forecasting. Statistics and Economics. 2021;18(2):4-11. (In Russ.) https://doi.org/10.21686/2500-3925-2021-2-4-11