РЕГРЕССИОННОЕ УРАВНЕНИЕ ЭГЛАЙСА: МЕТОД, РЕАЛИЗАЦИЯ, ЭКСПЕРИМЕНТ

Сивяков А.С., Трофименко Е.С., Беловодский В.Н.
Донецкий национальный технический университет, г.Донецк

Источник: Компьютерный мониторинг и информационные технологии 2009 / Материалы V международной научной конференции студентов, аспирантов и молодых ученых. - Донецк, ДонНТУ - 2009.

В докладе освещены принципы построения многомерных регрессионных уравнений по методу, предложенному В. Эглайсом [1]. Изложена концепция его реализации, описаны трудности, возникшие в процессе тестирования, и попытки их преодоления, показан эксперимент на примере эталонной функции.

На практике часто возникает следующая задача, – информация об объекте задана таблично и необходимо установить связь между параметрами и величиной, называемой откликом, т.е. требуется создать регрессионную модель объекта на основе табличных данных.

Обычно структура регрессионного уравнения неизвестна. Предложенный Эглайсом метод регрессионного синтеза не требует априорного знания структуры уравнения регрессии, а использование возможностей современных ЭВМ позволяет построить регрессионное уравнение, наиболее адекватное исследуемому объекту.

Задача формулируется следующим образом. Пусть имеется информация об объекте, заданная в виде таблицы, где каждой точке в пространстве параметров соответствует определенный отклик. Требуется синтезировать соответствующее уравнение регрессии в виде  где {Аj} набор коэффициентов уравнения регрессии, {Хi} набор параметров объекта.

Алгоритм формирования регрессионного уравненияразбиваетсяна следующие этапы [2]:

1) формирование банка элементарных функций;

2) отбор из банка, в некотором смысле, перспективных функций;

3) поочередное исключение (элиминация) отобранных функций и синтез регрессионного уравнения.

Смысл последнего этапа заключается в следующем. Можно полагать, что среди отобранных функций только часть действительно необходима в синтезируемом уравнении регрессии. Остальные из этого уравнения необходимо исключить. Пусть отобрано, например, всего р функций. Тогда имеется р вариантов исключения одной функции из состава перспективных. По методу наименьших квадратов проверяются все варианты и исключается функция, дающая суммарную минимальную погрешность si, определяемую по формуле , где .Затем вычисляется соответствующее среднеквадратичное отклонение σ и производится построение σ(i) на диаграмме элиминации. Пока из уравнения регрессии исключаются несущественные функции, σ меняется мало. Когда же остаются существенные функции, то исключение любой из них заметно увеличивает среднеквадратичное отклонение.Поэтому, излом на диаграмме элиминации свидетельствует о получении наиболее предпочтительного уравнения регрессии.

Подойдя к процессу тестирования программы и оценки адекватности её результатов выяснилось, что первоначально принятый в программе метод Зейделя в ряде контрольных примеров дает плохую сходимость. Это побудило к использованию других методов. В частности, были запрограммированы метод простых итераций, предполагающий предварительное преобразование решаемой системы уравнений и обеспечивающий требуемый для сходимости уровень нормы основной матрицы [3], и метод Жордана-Гаусса. В результате проведенных вычислительных экспериментов, оказалось, что более подходящим, с точки зрения результатов, оказался метод Жордана-Гаусса. Поэтому в окончательном варианте программы принято компромиссное решение: если норма матрицы системы меньше 1, то вычисления производятся по методу Зейделя, в противном случае по схеме Жордана-Гаусса. Данные изменения позволили ускорить работу программы и увеличили точность результатов.

Очередной трудностью, возникшей в процессе тестирования программы, оказалась проблема переполнения разрядной сетки, так как, в ряде случаев, производились операции с большими числами. Особенность платформы Java состоит в том, что она не информирует разработчика о случившимся переполнении, а результат при этом изменяется существенно. Поэтому было решено на этапе загрузки исходных данных производить их нормировку, т.е. переводить в диапазон [0.5;1.5].

Интересным, на наш взгляд, оказалось следующее обстоятельство. Предложенный Эглайсом способ отбора наиболее перспективных функций с использованием метода наименьших квадратов не всегда оказывается эффективным. Это, в частности, проявляется в том, что при контрольных просчетах, даже на относительно простых тестовых функциях, получаются не совсем ожидаемые результаты. Так, например, рассматривая функцию , с заданными параметрами k=5 и p=10, где k- максимально возможная суммарная степень для каждой функции в базе, а p- число перспективных функции, получаем базу из 61 элементарной функции. Далее, используя критерий отбора перспективных функций, основанный на оценке суммарного квадратичного отклонения, выполняем сортировку базы в порядке возрастания критерия. В результате оказалось, что функция  имеет сравнительно большую квадратичную погрешность (занимает 58 позицию в базе элементарных функций) и не попадает в разряд перспективных. При этом даже увеличение числа р до максимального, равного 61 в данном случае, не решает возникшей проблемы, т.к. с ростом числа перспективных функций возрастает и размер решаемой системы уравнений, а это в свою очередь приводит к увеличению числа операций и замедлению работы программы.

Это, на наш взгляд, ставит под вопрос бесспорность принятого критерия при формировании множества перспективных функции.

Список литературы

1. Эглайс В.О. Аппроксимация табличных данных многомерным уравнением регрессии. – Вопросы динамики и прочности: Рига, 1981, Вып. 39. – с. 120-125.

2. Сивяков А.С., Трофименко Е.С., Беловодский В.Н. //Сб. трудов 3 международной научно-технической конференции  молодых ученых и студентов «Информатика и компьютерные технологии». г.Донецк, ДонНТУ, 11-13 декабря 2007, - С. 73-75.

3. Воеводин В.В. Численные методы алгебры. Теория и алгорифмы. М., «Наука», 1996, 248 с.



© 2010 Артём Сивяков, ДонНТУ