Вычисление истинного уровня значимости предикторов при проведении процедуры спецификации уравнения регрессии


https://doi.org/10.21686/2500-3925-2017-3-10-20

Полный текст:


Аннотация

Данная научная работа посвящена новому численному методу, вычисляющему несмещенные оценки p-значений для предикторов линейных регрессионных моделей с учетом числа потенциальных объясняющих переменных, их дисперсионно-ковариационной матрицы и степени ее неопределенности, основанной на числе рассматриваемых наблюдений. Такая поправка помогает ограничивать число ошибок 1-ого рода в научных исследованиях, значительно понижая число публикаций, декларирующих ложные зависимости в качестве истинных. Сравнительный анализ с такими существующими методами как поправка Бонферрони и поправка Шехата и Уайта явным образом демонстрирует их недостатки, особенно в случае, когда число потенциальных предикторов сравнимо с числом наблюдений. Также в процессе проведения сравнительного анализа было показано, что когда дисперсионно-ковариационная матрица набора потенциальных предикторов является диагональной, т.е. данные независимы, предложенная простая поправка является лучшим и самым легким в реализации методом для получения несмещенных корректировок традиционных p-значений. Однако, в случае присутствия сильно коррелированных данных простая поправка переоценивает истинные p-значения, что может приводить к ошибкам 2-ого рода. Также было выявлено, что исправленные p-значения зависят от числа наблюдений, числа потенциальных объясняющих переменных и выборочной дисперсионно-ковариационной матрицы. Например, если имеется только две потенциальных объясняющих переменных, конкурирующие за одну позицию в регрессионной модели, тогда, если они слабо коррелированы, исправленное p-значение будет ниже, чем в случае когда число наблюдений меньше и наоборот; если данные сильно коррелированы, случай с большим числом наблюдений будет показывать более низкое исправленное p-значение. С увеличением корреляции все поправки независимо от числа наблюдений стремятся к исходному p-значению. Данный феномен легко объяснить: с приближением коэффициента корреляции к единице две переменных практически линейно зависят друг от друга и в случае, если одна из них является значимой, то и другая почти наверняка будет демонстрировать такую же значимость. С другой стороны, если выборочная дисперсионно-ковариационная матрица стремится к диагональной и число наблюдений стремится к бесконечности, то предложенный численный метод будет возвращать поправки, близкие к простой поправке. В случае, когда число наблюдений много больше числа потенциальных предикторов, тогда поправка Шехата и Уайта дают примерно одинаковые поправки с предложенным численным методом. Однако, в намного более распространенных случаях, когда число наблюдений сравнимо с числом потенциальных предикторов, существующие методы демонстрируют достаточно значительные неточности. Когда число потенциальных предикторов больше доступного числа наблюдений, представляется невозможным рассчитать истинные p-значения. Вследствие этого рекомендуется не рассматривать такие наборы данных при построении регрессионных моделей, поскольку только выполнение вышеупомянутого условия обеспечивает расчет несмещенных корректировок p-значения. Предлагаемый метод полностью алгоритмизирован и может быть внедрен в любой пакет статистического анализа данных.

Об авторе

Н. А. Моисеев
Российский экономический университет имени Г.В. Плеханова,
Россия
Кандидат экономических наук, доцент кафедры Математических методов в экономике


Список литературы

1. Akaike H. Information theory and an extension of the maximum likelihood principle. In: Petroc B., Csake F. (Eds.) Second International Symposium on Information Theory. 1973.

2. Akaike H. A Bayesian extension of the minimum AIC procedure of autoregressive model fitting // Biometrika. 1979. 66. P. 237–242.

3. Bates J.M., Granger, C.W.J. The combination of forecasts // Operations Research Quarterly. 1969. 20. P. 451–468.

4. Buckland S.T., Burnham K.P., Augustin, N.H. Model selection: An integral part of inference // Biometrics. 1997. 53. P. 603–618.

5. Canning F.L. 1959. Estimating load requirements in a job shop // Journal of Industrial Engineering. 1959. 10. P. 447.

6. Derksen S., Keselman H.J. Backward, forward and stepwise automated subset selection algorithms: frequency of obtaining authentic and noise variables // British Journal of Mathematical and Statistical Psychology. 1992. 45. P. 265–282.

7. Hurvich C.M., Tsai C.L. The impact of model selection on inference in linear regression // The American Statistician. 1990. 44. 3. P. 214–217.

8. Kramer C.Y. Simplified computations for multiple regression // Industrial Quality Control. 1957. 13. 8. 8.

9. Larzelere R.E., Mulaik S.A. Single-sample tests for many correlations // Psychological Bulletin. 1977. 84. P. 557 – 569.

10. Lovell M.C. Data mining. The Review of Economics and Statistics. 1983. 65. P. 1–12.

11. Miller A. J. Selection of subsets of regression variables (with discussion) // Journal of the Royal Statistical Society. 1984. A. 147. P. 389–425.

12. Mittelhammer Ron C., Judge George G., Miller Douglas J. Econometric Foundations. Cambridge University Press. 2000. P. 73–74.

13. Moiseev N.A. Linear model averaging by minimizing mean-squared forecast error unbiased estimator // Model Assisted Statistics and Applications. 2016. Vol. 11, No 4, P. 325–338.

14. Shehata Yasser A., White Paul A Randomization Method to Control the Type I Error Rates in Best Subset Regression // Journal of Modern Applied Statistical Methods. 2008. 7. 2. P. 398–407.

15. Shibata Ritaei. Asymptotically efficient selection of the order of the model for estimating parameters of a linear process // Annals of Statistics. 1990. 8. Pp. 147–164.

16. Shibata Ritaei. An optimal selection of regression variables // Biometrika. 1981. 68. P. 45–54.

17. Shibata Ritaei. Asymptotic mean efficiency of a selection of regression variables // Annals of the Institute of Statistical Mathematics. 1983. 35. P. 415–423.

18. Wishart J. The generalized product moment distribution in samples from a normal multivariate population // Biometrica. 1928. 20A. P. 32–52.

19. Глазьев С. Проблемы прогнозирования макроэкономической динамики // Российский экономический журнал. 2001. № 3. C. 76–85; № 4. C. 12–22.

20. Крыштановский А.О. Методы анализа временных рядов // Мониторинг общественного мнения: экономические и социальные перемены. 2000. № 2 (46). С. 44–51.


Дополнительные файлы

Для цитирования: Моисеев Н.А. Вычисление истинного уровня значимости предикторов при проведении процедуры спецификации уравнения регрессии. Статистика и Экономика. 2017;(3):10-20. https://doi.org/10.21686/2500-3925-2017-3-10-20

For citation: Moiseev N.A. Calculating the true level of predictors significance when carrying out the procedure of regression equation specification. Statistics and Economics. 2017;(3):10-20. (In Russ.) https://doi.org/10.21686/2500-3925-2017-3-10-20

Просмотров: 111

Обратные ссылки

  • Обратные ссылки не определены.


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2500-3925 (Print)