Назад в библиотеку

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

Автор: Steven J. Miller

Перевод: Сиротенко Е.И.

Аннотация

Steven J. Miller - Метод наименьших квадратов. Метод наименьших квадратов представляет собой процедуру, определяющую наиболее подходящие ряды данных; в качестве доказательства используются простые вычислительные методы линейной алгебры. Основная задача состоит в нахождении наилучшего решения уравнения pic1 учитывая, что для pic2 значения pic3 определяемые. Метод легко обобщаем для нахождения наилучшего значения из:

pic4

Это не является необходимым для функции pic5, линейной для х - все, что необходимо, это чтобы y был линейной комбинацией этих функций.

Содержание

1. Описание проблемы

Часто в реальном мире можно найти линейные зависимости между величинами. Например, сила упругости линейно зависит от деформации тела: pic6 (где y - сила упругости, х - деформация тела, k - коэффициент пропорциональности). Для проверки предлагаемого соотношения исследователи в лаборатории измерили силу упругости при различных деформациях. Таким образом они собрали данные о pic3, изменяющихся от pic2; здесь pic7 - определяемая сила в Ньютонах, когда pic8 - величина деформации в метрах.

pic9

Рисунок 1 – Генератор 100 наблюдений зависимости изменения силы упругости от деформации (k=5).


К сожалению маловероятно, что мы будем наблюдать идеальные линейные зависимости. Этому есть две причины. Первая – экспериментальная ошибка; вторая – основные взаимосвязи не могут быть точно линейными, а только относительно линейными. Как видно на рисунке 1, моделируются наборы данных зависимости изменения силы упругости от деформации при коэффициенте пропорциональности равном 5.

Метод наименьших квадратов – процедура, требующая лишь некоторых вычислений линейной алгебры, позволяющая определить «наилучшее соответствие» линейной зависимости рядов данных. Конечно, нам необходимо количественное определение, того что мы подразумеваем под «наилучшим решением», для этого потребуется краткий обзор некоторых положений теории вероятности и математической статистики.

Тщательный анализ обоснования метода покажет, что он способен на значительные обобщения. Вместо того чтобы находить наиболее подходящую линию, мы могли бы найти наиболее подходящий вид любой конечной линейной комбинации указанных функций. Таким образом, общая проблема данной функции pic10 найти значения коэффициентов pic11 таких, что линейное соотношение

pic12

является наилучшим приближением.

2. Обзор теории вероятности и математической статистики

Дадим краткое описание основных элементов теории вероятности и математической статистики, которые нам нужны в методе наименьших квадратов, для получения дополнительной информации см. [1, 2, 3, 4, 5, 6, 7]

Учитывая последовательность данных pic13, определим среднее или ожидаемое значение pic14. Обозначим это. написав линию над х: таким образом

pic15

Получим среднее значение данных.

Рассмотрим следующие две последовательности данных: pic16 и pic17. Обе последователности содержат определенные значения, однако первый набор данных имеет больший разброс относительно среднего значения. Это приводит к понятию вариации, которое является полезным инструментом, чтобы количественно измерить насколько набор данных колеблется около своего среднего значения. Дисперсии pic13, обозначаемые pic18:

pic19

Стандартное отклонение pic20 есть квадратный корень из дисперсии:

pic21

Заметим, что если единицы измерения х - метры, то дисперсия pic18 имеет единицы измерения мpic22, а стандартное отклонение pic20 и среднее значение pic23 имеюи единицы измерения метры. Таким образом, стандартное отклонение дает хорошую меру отклонения х вокруг своего среднего значения.

Конечно есть альтернативные меры, которые можно использовать.Например, можно было бы рассмотреть:

pic24

К сожалению здесь указано колличество и большие положительные отклонения могут исключать отрицательные. В самом деле, из определения среднего значения вытекает, что результат всегда больше нуля! Это затем стало бы страшной мерой разброса данных, так как оно равно нулю независимо от значений данных.

Мы можем решить эту проблему, используя абсолютные значения. Это приводит нас к рассмотрению

pic25

Хотя имеется преимущество, избежать наличия ошибок (в тех же единицах измерения, что и х) невозможно, функция абсолютно значения не очень хороша, как аналитическая функция. Она не дифференцируема. Это вызвано тем, что прежде всего мы вычисляем стандартное отклонение (квадратный корень из дисперсия) - это позволяет нам использовать стандартные средства исчисления.

Теперь мы можем определить количественно, что мы подразумеваем под наилучшим значением. Если мы считаем, что pic1, тогда pic26 должно быть равно нулю. Таким образом, по данным наблюдений

pic27

мы увидим

pic28

Среднее значение должно быть наибольшим (если оно подходит), а разница будет определять насколько хорошо подходящее значение у нас есть.

Следует отметить, что дисперсия для этого набора данных

pic29

Большие ошибки имеют больший вес, чем меньшие (из-за возведения в квадрат). Таким образом, наша процедура приводит к большим средним ошибкам при наличии больших ошибок отдельных величин. Если бы мы использовали абсолютные значения измерения (см. уравнение (2.6)), то все ошибки имели бы одинаковый вес, однако абсолютные значения функции недифференцируемы, таким образом средства исчисления становятся недоступными.

3. Метод наименьших квадратов

Учитывая данные pic30, мы можем определить ошибки, связанные с pic1 соотношением

pic31

Здесь N раз значения дисперсии набора данных pic32. Не имеет значения действительно ли мы изучаем дисперсию или N раз разности наших ошибок, важно, что ошибка является функцией двух переменных.

Цель состоит в том, чтобы найти значения a и b, которые минимизируют ошибки. В многомерном исчислении мы получаем, что это требует от нас найти значения (a и b) такие что

pic33

Обратите внимание, мы не должны беспокоиться о граничных точках: если pic34 и pic35 станут большими, значения подходят все хуже и хуже. Таким образом, нам не нужно проверять на границе.

Дифференцированиеpic36 дает

pic37

Установление pic38 (и деления на 2) дает

pic39

Мы можем переписать эти уравнения, как

pic40

Мы получили, что значения a и b, сводящие к минимуму ошибки (определенные в (3.10)) удовлетворяют следующим матричным выражениям:

pic41

Мы покажем,что матрица обратима, что подразумевает

pic42

Обозначим матрицу М. Определитель М

pic43

где

pic15

найдем что

pic44

где последнее равенство следует из элементарной алгебры. Таким образом, пока все pic8 не равны pic45 будут отличны от нуля и M будет обратима.


Таким образом, мы находим, что до тех пор, пока все х не равны наилучшим значениям a и b, полученным путем решения системы линейных уравнений, решение приведено в (3.16).


Замечание 3.1.

Данные на рисунке 1 получены из выражения pic46 и выражения pic47 прюс ошибка, случайно сгенерированная из нормального распределения с нулевым средним значением и стандартным отклонением pic48. Используя эти значения, мы найдем наилучшее соответствие линии

pic49

где a=4.99 и b=0.48. Как видно по соотношению pic50 мы ожидали наилучшее значение а=5 и b=0.

В то время, как наши значения а близки к истиному значению. значения b значительно отличаются от него. Мы сознательно выбрали данных такого рода для обозначения опасности при использовании метода наименьших квадратов. Только потому, что мы знаем, что 4.99 лучшее значение уклона, и 0.48 лучшее значение для y-перехвата, не означает, что это хорошие оценки истиного значения. Теория должна быть дополнена методами, которые обеспечивают оценки погрешности. Таким образом, если мы хотим узнать что-то с учетом этих данных, с вероятностью 99%, что истиное значение а находится в диапазоне (4.96 - 5.02), а истиное значение b - в диапазоне (-0.22 - 1.18); это гораздо полезнее, чем просто знать наилучшее значение.

Если бы вместо этого мы использовали

pic51

то численные методы дают, что лучше подходит значение а=5.03 и лучшее значение b меньше чем pic52 по абсолютной величине. Разница между этими величинами и полученными из метода наименьших квадратов в наилучшем значении b (наименее важный из этих двух параметров), и в связи с различными способами взвешивания ошибок.

Замечание 3.2.

Обобщить метод наименьших квадратов, чтобы найти наиболее подходящий для квадратичной формы pic53 (или вообще наиболее подходящий полином степени m pic54.

В то время как для любой реальной проблемы мира, непосредственное вычисление определяет, будет ли в результате матрица обратима, это положительный момент, так как есть возможность доказать, что определитель всегда отличен от нуля для наилучшего решения (если все х не одинаковы).

Замечание 3.3.

Если х не одинаковы, должен ли определитель бы отличным от нуля для наилучшего решения квадратичной или кубической формы?

Посмотрим на доказательство метода наименьших квадратов, отметим что это несущественно, если у нас есть pic1; мы могли бы иметь pic55, где аргументы определены аналогичным образом. Разница в том, что мы получаем

pic56

Замечание 3.4.

Рассмотрим обобщение метода наименьших квадратов, приведенные в (3.22). При каких условиях матрица обратима?

Замечание 3.5.

Метод доказательства обобщает далее случай, когда можно ожидать, что у является линейной комбинацией К определенных функций. Функции не должны быть линейными; все что необходимо - иметь линейную комбинацию, например pic57. Они определяются pic11, которые минимизируют дисперсию (сумма квадратов ошибок) метолами линейной алгебры. Найдем матричное выражение, которому лучше всего подходят коэффициенты (pic11).

Замечание 3.6.

Рассмотрим лучшее решение по методу наименьших квадратов, таким образом значения наилучшего решения получены из (3.16). Есть точка pic58, где pic59 и pic60, является лучшим решением? Другими словами, лучшее решение проходит через среднюю точку?

Список использованной литературы

1. P. Bickel and K. Doksum, Mathematical Statistics: Basic Ideas and Selected Topics, Holden-Day, San Francisco, 1977.
2. G. Casella and R. Berger, Statistical Inference, 2nd edition, Duxbury Advanced Series, Pacific Grove, CA, 2002.
3. R. Durrett, Probability: Theory and Examples, 2nd edition, Duxbury Press, 1996.
4. W. Feller, An Introduction to Probability Theory and Its Applications, 2nd edition, Vol. II, John Wiley & Sons, New York, 1971.
5. D. Kelley, Introduction to Probability, Macmillan Publishing Company, London, 1994.
6. R. Larson and B. Farber, Elementary Statistics: Picturing the World, Prentice-Hall, Englewood Cliffs, NJ, 2003.
7. D. Moore and G. McCabe, Introduction to the Practice of Statistics,W. H. Freeman and Co., London, 2003.