КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ МНОГОМЕРНЫХ РЕГРЕССИОННЫХ УРАВНЕНИЙ МЕТОДОМ ЭГЛАЙСА

Сивяков А.С., Трофименко Е.С.
Донецкий национальный технический университет, г.Донецк

Источник: Сборник трудов 3 международной научно-технической конференции  молодых ученых и студентов «Информатика и компьютерные технологии». г.Донецк, ДонНТУ, 11-13 декабря 2007, - С. 73-75.

В докладе освещены принципы построения многомерных регрессионных уравнений по методу, предложенному В. Эглайсом. Изложены результаты реализации его двух начальных этапов.

На практике часто возникает следующая задача, – информация об объекте задана таблично и необходимо установить связь между параметрами и величиной, называемой откликом, т.е. требуется создать регрессионную модель объекта на основе табличных данных.

Обычно структура регрессионного уравнения неизвестна. Предложенный Эглайсом метод регрессионного синтеза не требует априорного знания структуры уравнения регрессии. Использование возможностей современных ЭВМ позволяет построить регрессионное уравнение, наиболее адекватное исследуемому объекту.

Рассмотрим показатели качества регрессионного уравнения. Можно выделить два основных показателя: точность, надежность.

Точность характеризуется, обычно, суммой квадратов отклонений табличных данных от значений регрессионного уравнения в соответствующих точках, – чем меньше отклонение, тем больше точность. Увеличивая число коэффициентов в регрессионном уравнении, можно неограниченно уменьшить отклонение исходных данных от значений уравнения. Однако такому уравнению будут присущи плохие прогнозирующие свойства, – в промежуточных точках пространства параметров объекта, отклонения отклика от значений уравнения регрессии могут быть недопустимо большими.

Надежность характеризуется величиной разности отклонений в исходных и промежуточных точках пространства параметров объекта. Очевидно, что чем меньше независимо определяемых коэффициентов в уравнении регрессии, тем больше надежность уравнения.

Таким образом, основные показатели качества уравнения регрессии противоречивы, т.е. улучшение одного ведет к ухудшению другого.

Исходя из вышеизложенного была разработана методика синтеза регрессионной модели объекта по табличным данным, ориентированная на использование современных ЭВМ.

Задача формулируется следующим образом. Пусть имеется информация об объекте, заданная в виде таблицы, где каждой точке в пространстве параметров соответствует определенный отклик. Требуется синтезировать соответствующее уравнение регрессии в виде  где Аjнабор коэффициентов уравнения регрессии, Хi набор параметров объекта.

Алгоритм формирования регрессионного уравнения разбиваетсяна следующие этапы:

1) формирование банка элементарных функций {}. Они задаются в виде

где n – число параметров объекта, – всевозможные наборы положительных и отрицательных чисел. Причём  ограниченно следующим условием:

(1).

Предполагается, что K задается пользователем;

2) отбор из банка наиболее перспективных функций. На этом этапе, с использованием метода наименьших квадратов, осуществляется отбор функций дающих минимальное отклонение;

3) поочередное исключение (элиминация) отобранных функций и синтез регрессионного уравнения. На этом этапе с помощью диаграммы элиминации производится отбор всех существенных функции, т.е входящих в регрессионное уравнение.

Нами к настоящему времени реализованы первые два этапа алгоритма, а именно – формирование банка элементарных функций и отбор наиболее перспективных.

Суть первого этапа заключается в следующем. Каждая функция представляется в виде массива степеней их аргументов. Заполнение массива производится следующим образом. Первоначально в банк добавляются функции, где  согласно (1) принадлежит промежутку [-K; K], а {,…,}=0. Кроме того, базовая функция имеет дополнительную булевскую характеристику (child):

– 1, true – если может ли иметь производные функции:  и индекс последнего ненулевого элемента не равен n.

– 0, false – иначе.

Далее выбираем из базы те элементы, у которых выполняется условие child = true. И образовываем новые базовые функции по следующему алгоритму:

Для всех элементов { ,…, }, где j – индекс последнего ненулевого элемента+1, предполагаем, что =b, где i = j…n, b принадлежит одному из промежутков        [-K,0) или (0; K]. Если полученная функция удовлетворяет условию (1), то добавляем ее в банк. В силу симметричности промежутка [-K; K ] добавляется еще и функция, в которой =-b.

Повторяем алгоритм до тех пор, пока в базе не останется функций, от которых можно было бы образовать новые.

На втором этапе реализуется ввод данных и отбор перспективных функций.

Ввод данных можно выполнить как вручную, так и из файла с расширением “.csv”. Так же поддерживается режим редактирования.

Отбор перспективных функций проводиться следующим образом. Для всех функций банка по методу наименьших квадратов вычисляются коэффициенты элементарных уравнений регрессии в виде  а также определяются суммарные квадратичные отклонения

Тогда р элементарных функций, дающих минимальные значения , где р – задаваемое пользователем число перспективных функций, отбираются как перспективные.

Список литературы

1. Эглайс В.О. Аппроксимация табличных данных многомерным уравнением регрессии. – Вопросы динамики и прочности: Рига, 1981, Вып. 39. –с. 120-125.



© 2010 Артём Сивяков, ДонНТУ