← Библиотека

A Linear Regression Model for Real Estate Pricing

Модель линейной регрессии для оценки недвижимости

Перевод: Снежок К.В.

Источник:http://www.docstoc.com/docs/21399212/A-Linear-Regression-Model-for-Real-Estate-Pricing

1. Введение

Этот проект предназначен для оценки модели линейной регрессии, используя реальные данные. Существует два метода оценки недвижимого имущества: сравнение продаж и метод определения доходов. Сравнение продаж оценивает недвижимое имущество, опираясь на цены сравнимого имущества. В связи с тем, что этот подход допускает, что недвижимое имущество с похожими характеристиками имеет одинаковую стоимость, то естественно использовать модель линейной регрессии, чтобы воплотить этот метод в практику. Тем не менее, неизвестно какие свойства недвижимости должны быть взяты в оценочной модели. Мы будем опытным путем анализировать значимость нескольких независимых переменных к стоимости недвижимости. Кроме того, проверим достоверность модели линейной регрессии.

2. Данные

Данные взяты из книги Статистический метод в бизнесе и экономике, написанной Линдом, Маршалом и Мэйсоном. Она содержит 105 цен продаж и несколько ключевых характеристик имущества, основанных на информации о продажах домов в Венеции, Флориде в 1995 году.

Зависимая переменная – это цена дома в тысячах долларах. Объекты с зависимой переменной следующие:

Апартаменты с кол-ом спален: количество спален

Размер:- Размер дома в футах

Басс: - Наличие бассейна (1 = да, 0 = нет)

Рас: - Расстояние от центра города в милях

Город:- Размер города (шифр 1-5)

Гараж:-Наличие гаража (1 = да, 0 = нет)

Ванная:-Кол-во ванных комнат

Описательная статистика непрерывных переменных представлена в таблице 1. Можно увидеть, что цена и размер имеют довольно большую шкалу, которая показывает нам логарифм двух переменных в регрессии.

Мы видим слабую линейную связь между некоторыми парами. Тем не менее, этого предварительного анализа не достаточно, чтобы определить соответствие независимых переменных к стоимости дома.

3. Эмпирический результат

a. Основные результаты метода наименших квадратов

Мы используем этот метод для оценки линейной регрессионной модели с 7 независимыми переменными. Только 100 измерений использовались для оценки. Остальные 5 оставлены с целью прогноза. Оценочная модель выглядит следующим образом:

цена = 65.07 + 7.60 • комнаты + 0.03 • размер -19.8 • бассейн -1.37 • расстояние - 0.93 • город + 37.9 • гараж + 28.4 • ванная

R-квадрат регрессии 61.4%, что означает довольно хорошую пригодность модели для данных. Оценки обычного метода наименьших квадратов, стандартные ошибки, Т-статистика и Р-значения представлены в таблице 2.

Город показывает совершенно незначительную величину 0.71. Результат не значит, что местность здания не имеет значения для стоимости дома, т.к. расположение должно приниматься как абсолютная переменная, а не как числовая переменная. Если мы берем фиктивные переменные, чтобы обозначить абсолютную величину Город, то возможно, что некоторые фиктивные переменные станут статистически значи кроме мы. Расстояние почти несущественно, 5%. Все остальные переменные статистически важны, кроме отрезок между двумя точками.

Основываясь на t-критерии, мы исключаем Город и Расстояние из модели. Но оставляем постоянный терм, потому что оценка отсекаемого отрезка сравнивается с постоянными величинами, и это неправильно иметь линейную модель без постоянного терма. Мы дополняем регрессию новыми независимыми переменными. Результаты обычного метода наименьших квадратов представлены в таблице 3. Новая модель рассчитывается по формуле:

цена = 31.22 + 7.55• комнаты + 0.04 • размер - 20.36 • бассейн + 42.03. • гараж + 30.30 ванна

t-критерии показывают, что все независимые переменные, кроме отсекаемого отрезка, статистически значимы, даже при 1%. F критерий также показывает, что уравнение регрессии статистически значимо на любом принятом уровне. R-квадрат на отметке 60% и немного понизился.

Отметим интересное наблюдение о пояснении коэффициентов в модели. Приемлемая оценка выводится для всех коэффициентов кроме бассейна. Оценочный коэффициент для бассейна -20, тем самым модель предполагает, дом с бассейном имеет стоимость ниже на $20, 000, чем дом без бассейна и с тем же условиями. Будет слишком неосторожно заявить, что бассейн обычно негативно влияет на стоимость дома. Возможно, результат можно объяснить с помощью особенных предпочтений в этом районе. Тем не менее, этот необычный результат заставляет нас задуматься о действенности примера.

b. мультиколлинеарность

Мы хотим проверить, существует ли мультиколлинеарность в независимых переменных. Самая высокая корреляция 41% между Комнатами и Размером. Мы приходим к заключению, об адекватности мультиколлинеарности в данных.

c. функциональная форма модели

Мы обнаружили, что Цена и Размер имеют довольно большие величины по сравнению с другими переменными. Поэтому можно предположить, что у них логарифмическая форма. Мы запускаем новую регрессию, в которой независимая переменная в уравнении регрессии Размер заменяется логарифм log(size). Результаты оценки обычного метода наименьших квадратов показаны в таб.4. R-квадрат новой модели равен приблизительно 60%, даже немного ниже, чем в первоначальной модели. Можно отметить, что Расстояние значительно на 5% уровне в этой модели. Статистическая значимость независимых переменных остается практически неизменной. Не произошло идеального совпадения, изменив функциональную форму модели. Пояснение коэффициентов в этой модели с помощью логарифмов не наглядна. Поэтому мы будем придерживаться сведенной линейной модели в (а).

d. гетероскедастичность

Необходимо проанализировать остальные данные обычного метода наименьших квадратов и проверить возможную гетероскедастичность для относящимся к различным областям данные. Мы считаем подобранные величины Цены и остальные данные обычного метода наименьших квадратов. После мы сортируем остальные данные к подобранным величинам Цены и строим диаграмму рассеивания относительно подобранных величин, рис.2. Наблюдаем, что все элементы точно распределены и нет очевидных примеров для подчинённого положения остальных данных к подобранным.

Иногда недостаточно графика остатков, чтобы определить гетероскедастичность. Более того, мы провели White тест гетероскедастичности на остатках обычного метода наименьших квадратов. F критерий 1.23 и связанный с ним p-критерий 0.29, а n*R-квадрат 9.75, связанный p-критерий 0.28. Оба результата отрицают гипотезу гетероскедастичности на обычном уровне. Подведя итог, можно сказать, что линейная модель с гомоскедастической ошибкой нормальна для таких данных.

e. Образей прогноза

Мы можем оценить достоверность этой линейно модели регрессии с помощью проверки точности прогноза. Оцениваем линейную модель с помощью 100 и 105 показаний данных. Мы прогнозируем цены для остальных 5 показателей, сравниваем реальные значения и прогнозируемые значения 5 стоимостей. Для того, чтобы сделать наши наблюдения более объективными, мы также описываем 95% интервала доверия для 5 прогнозируемых цен. Видим, попадает ли истинное значение в интервалы. Прогнозируемые результаты показаны на рисунке. Мы можем увидеть, что прогнозы вне наших примеров неплохие. 4 из 5 истинных величин попали в 95% интервал доверия .Одно показание за пределами интервала также возле нижнего предела. Прогнозируемые величины довольно близки к истинным величинам по сравнению с интервалом доверия.

4. Вывод

В этом проекте мы предложили линейную модель регрессии, чтобы определить цену дома, используя ключевые характеристики недвижимости. Используя массив реальных данных с 100 показателями мы дали оценку модели по обычному методу наименьших квадратов. Мы исключили 2 неважные независимые переменные, основываясь на t тесте. Наши результаты в мультиколдинеарности, гетероскедастичности и функциональной форме показывают, что линейная можель регрессии с гомоскедастичными ошибками является нормальной для такого множества данных. Результаты прогнозирования показали, что модель строится успешно в прогнозировании. Интересное наблюдение в этом проекте заключается в том, что результат оценки влияния бассейна на стоимость дома протеворечит нашим ожиданиям. Причина все еще неизвестна.

© 2010 Cнежок К.В. ДонНТУ