|
Автореферат
магистерской выпускной работы
студентки гр. ЭКИ – 00: Щербак Ирины Викторовны
на тему: "Исследование метода повышения точности регрессионных прогнозных моделей"
научный руководитель: Смирнов Александр Владимирович
♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣
- Введение
- Исследование метода повышения точности регрессионных пргнозных моделей
- Построение модели парной линейной регрессии
- Анализ полученных данных
- Заключение
- Перечень ссылок
♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣
- Введение
Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Регрессионный анализ является основным средством исследования зависимостей между социально-экономическими переменными. Эту задачу мы рассмотрим в рамках самой распространенной в статистических пакетах классической модели линейной регрессии.
Специфика социологических исследований состоит в том, что очень часто необходимо изучать и предсказывать социальные события. Вторая часть данной главы будет посвящена логистической регрессии, целью которой является построение моделей, предсказывающих вероятности событий.
Следует помнить, что модель позволяет установить лишь уровень изучаемых показателей, соответствующий выбранным факторам. Но так как практически трудно выделить все факторы, то отклонения фактических значений анализируемых показателей от расчетных можно объяснить действием неучтенных факторов. Включение большего количества факторов в модель значительно повышает ее адекватность.
Так же данные модели являются статистическими, то есть при их построении не учитывался фактор времени. Поэтому распространение закономерностей, установленных с помощью этих моделей, на длительные промежутки времени будет давать большие ошибки экстраполяции (так как форма и направление взаимосвязи может измениться). Прогнозные свойства регрессионных моделей проявляются только в определенных условиях и не могут распространяться даже на однотипные явления, которые происходят в разных условиях.
Целью работы является исследование метода статистического анализа для повышения точности регрессионных прогнозных моделей и надежности перспективных моделей.
В данной работе для проведения анализа используются случайные величины сгенерированные программным путем. Обработка данных осуществляется в пакете MICROSOFT EXCEL и STATISTICA в модуле Multiple Regression.
Результаты данной работы могут применяться в области краткосрочного и долгосрочного прогнозирования для решения задач совершенствования управления экономикой, планирования ее развития и улучшения организации производства.
Данную работу можно использовать для дальнейшего совершенствования методологии прогнозирования, распространения и совершенствования имеющихся, разработки новых методов, применяемых при прогнозировании.
Содержание
- Исследование метода повышения точности регрессионных пргнозных моделей
- Построение модели парной линейной регрессии
Для генерации исходных данных предусмотрено создание программного имитатора. Разработка программы имитатора включает генерацию случайных величин различных по размеру выборок.
Алгоритм программы имитатора реализует следующие зависимости:
- Независимая случайная величина для равномерного закона распределения:
Xi=Ti+Ri
где: Ti=1...N, N -объем выборки;
Ri - случайное число, равномерно распределенное на отрезке [0,σ], возвращаемое при обращении стандартных функций выбранного языка программирования (0<σ<1).
- Зависимая случайная величина определяется аналогично независимой.
Для исследований в работе предусмотрен генератор трех выборок по каждой из пяти пар случайных величин со следующими размерами: N=10.
Содержание
- Анализ полученных данных
Анализ данных проведем в пакете MICROSOFT EXCEL и STATISTICA в модуле Multiple Regression.
Доверительные границы эллипса в пакете STATISTICA строятся для двух зависимых переменных и определены знаком парной линейной корреляции. Вероятность того, что значения будут попадать в доверительную область определяется значением коэффициента, который определяется проекцией эллипса на ось X и Y и равен (рис.1):
mean±(Range*I)
где: I - текущее значение поля коэффициента;
mean и Range - параметры случайных величин.
Рисунок 2 Этапы исследования регрессионной модели.
Построим уравнение парной регрессии, доверительную область и определим ее параметры рис. 2. С доверительной вероятностью 0,85 точка с координатами (30,27;29,73) не попадает в доверительную область (рис.2). Эта точка "аномальная". Удалим ее с помощью метода "Кисти". После удаления "аномальной" точки мы получили новое уравнение регрессии (рис. 2). Доверительная вероятность для построения доверительной области для "новой" парной регрессии после удаления одной "аномальной" точки не изменилась. Аналогично исследуем регрессионные модели 2 и 3 при удалении от одной до пяти "аномальных" точек. Результаты исследования сведены в таблицы.
Таблица 1 Исходные данные – Модель 1
Таблица 1 Исходные данные – Модель 2
Таблица 1 Исходные данные – Модель 3
Таблица 1 Исходные данные – Модель 4
Таблица 1 Исходные данные – Модель 5
По исходным и полученным данным былы определены доверительные интервалы и коэффициенты A, L:
A=(+ΔYпр+Yсм)/+ΔYпр
L=Nуд/Nобщ
Изобразим на графике зависимость коэффициентов A и L (рис. 3)
Рисунок 3 Исследование регрессионной модели.
Из рисунка видно, что оптимальное число удаленных аномальных точек должно составлять 10%, чтобы получить более точную регрессионную модель.
Содержание
- Заключение
В данной работе в качестве модели регрессионных данных использовали уравнение парной линейной регрессии. Для каждого уравнения построили эллипс – доверительную границу – и удалили аномальные точки, т.е. точки не принадлежавшие доверительной области эллипса. Получили следующие результаты, что при удалении одной или нескольких аномальных точек доверительная вероятность возрастала на 10 – 20 %. Выборочная оценка дисперсии случайных членов , содержащихся в теоретической модели при удалении одной или двух аномальных точек уменьшалась, а при удалении трех и более точек незначительно увеличивалась независимо от объема выборки.
Исследование метода повышения точности регрессионных прогнозных моделей позволило найти оптимальное количество удаленных аномальных точек (n=1, n=2) в зависимости от объема выборки, чтобы свести к минимуму выборочную оценку дисперсии случайных членов , содержащихся в теоретической модели.
Для проведения дальнейших исследований в данной предметной области можно повысить уровень "выигрыша" при прогнозировании в области экономики.
Содержание
- Перечень ссылок
1. Себер Дж. Линейный регрессионный анализ.Пер.с англ. В.П. Носко; Издательство "Мир" Москва, 1980.
2. Справочник по вероятностным расчетам. М., Воениздат, 1970.
3. Четыркин Е.М. Статистические методы прогнозирования. Изд. 2-е, перераб. и доп. М., "Статистика", 1997.
4. Шмойлова Р. А. Теория статистики – М.: Финансы и статистика, 2000.
Содержание
♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣ ♣
scherbakira@mail.ru
|