A.G.Ivakhnenko, G.A.Ivakhnenko "The Review of Problems Solvable by Algorithms of the Group Method of Data Handling (GMDH)", Pattern Recognition and Image Analysis, Vol. 5, No. 4, 1995, pp.527-535
Источник: http://www.gmdh.net/articles/index.html



1. ВВЕДЕНИЕ
	Решение практических задач и разработка теоретических вопросов Метода Группового Учета Аргументов (МГУА), привели к появлению широкого спектра вычислительных алгоритмов, каждый из которых предназначен для определенных условий применения [1,2,3,4,5,6]. Выбор алгоритма зависит как от точности и полноты информации, представленной в выборке экспериментальных данных, так и от вида решаемой задачи. Данный обзор имеет целью указать алгоритмы МГУА для различных случаев их применения. 
1.1. Полиномиальная опорная функция. Метод основан на переборе, т.е. последовательном опробовании моделей, выбираемых из множества моделей-кандидатов по заданному критерию. Почти все алгоритмы МГУА используют полиномиальные опорные функции. Общая связь между входными и выходными переменными находится в виде функционального ряда Вольтерра, дискретный аналог которого известен как полином Колмогорова-Габора1.2.Перебор моделей по группам равной структуры. Будучи итерационным методом, МГУА близок к методу выбора лучшей регресии, однако отличается от него целесообразной организацией поиска оптимальной структуры модели и, кроме того, применением как внутренних, так и особых внешних критериев перебора. Модели перебираются по группам или рядам равной сложности структуры и для каждого ряда находится лучшая по критерию модель. Теоретически доказано, что при зашумленых данных и короткой выборке минимум математического ожидания внешнего критерия единственен [1].
	Единственность минимума сохраняется и при достаточно больших группах моделей, что и используется для выбора единственной оптимальной модели. Если же модели оценивать по одной, - то найти оптимальную модель практически невозможно.
		1.3. Внешние и внутренние критерии. Напомним, что критерий называется внутренним, если он расчитывается по всей выборке данных. Внешний критерий расчитывается по новой информации, которая не была использована для оценки коэффициентов модели. Например, для расчета критерия регулярности точки (строки) выборки ранжируются по дисперсии и каждая третья точка поступает в проверочную подвыборку, служащую для оценки структуры модели. Остальные точки выборки используются для оценки коэффициентов моделей.
		1.4. Физические и нефизические модели. По структуре алгоритмы МГУА близки к алгоритмам самообучения многорядных систем распознавания образов - к перцептронам или нейросетям [6]. Существенное отличие состоит в том, что полиномиальные алгоритмы МГУА оперируют с непрерывными переменными. Дискретный характер выходной переменной перцептрона, указывающей принадлежность данного изображения к тому или иному образу, исключает возможность более тонкого учета неточности распознавания для выбора структуры перцептрона. После дискретизации или кластеризации получение нефизических моделей исключено. Только непрерывные переменные позволяют найти минимум внешнего критерия, определяющий оптимальную структуру нефизических моделей.
	Физическая модель соответствует понятию математического описания, принятого в математической физике. Иногда физической моделью объекта также называют ее аппроксимацию при помощи полиномов или на языке кластеризаций. Физическая модель - единственная для каждого объекта и языка его описания. 
	Основной результат теории МГУА состоит в том, что при неточных зашумленых данных и коротких выборках минимум критерия указывает так называемую нефизическую модель, точность которой выше и структура которой проще структуры полной физической модели [1]. Нефизические модели можно получить только по МГУА. 
	Структура нефизической модели тем проще, чем больше дисперсия помех. Увеличение длины выборки равносильно уменьшению помех. Структура нефизической модели при росте выборки приближается к структуре физической модели. Таким образом для данного объекта могут существовать много нефизических моделей, что зависит от дисперсии помех и длины выборки. Нефизические модели получают не только при помощи исключения некоторых членов физической модели, но и случайным образом, так чтобы получить более глубокий минимум внешнего критерия [7].
		1.5. Дедуктивные и индуктивные алгоритмы МГУА. Самоорганизацию моделей можно определить, как их построение при всемерном уменьшении необходимой априорной информации. В частности, число указаний автора моделирования уменьшаются до минимума. В дедуктивных алгоритмах, называемых алгоритмами типа МГУА [5], для перебора моделей применяются внутренние точностные критерии, причем результат расчета используется только один раз: для выбора лучшей модели каждого ряда итерации. Число рядов указывает субъективно эксперт или автор моделирования. Все же объем необходимой априорной информации сравнительно невелик, что позволяет говорить о самоорганизации моделей как по индуктивным, так и по дедуктивным алгоритмам типа МГУА. 
	В отличие от этого, в индуктивных алгоритмах МГУА, перебор моделей выполняется по внешним точностным критериям, причем результаты расчета критерия используются два раза: как для выбора лучших моделей каждого ряда, так и для объективного выбора числа рядов итерации. Оптимальная, наиболее точная нефизическая модель, соответствует минимуму внешнего критерия.
	Закономерности описываемые дифференциальными уравнениями идентифицируются в виде их разностных аналогов, т.е. в форме алгебраических полиномов, содержащих запаздывающие аргументы.
		1.5.1. Комбинаторный алгоритм МГУА. Основной Комбинаторный алгоритм МГУА имеет многорядную итерационную структуру. Его особенность состоит в том, что правило итерации (частное описание), не остается постоянным, а расширяется с каждым новым рядом.

2. ЗАДАЧА ИДЕНТИФИКАЦИИ ФИЗИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ.
	Требуется найти линейный по коэффициентам полином, аппроксимирующий зависимость выходной величины от нескольких входных переменных-аргументов так, чтобы получить минимум заданного точностного критерия. Такой полином может представлять собой сумму простых нелинейных функций. Исходная информация задана в выборке данных наблюдений работы объекта. 
	Традиционный подход к решению задачи состоит в переборе множества моделей-кандидатов для выбора одной из них, лучшей по критерию. Как указывалось, целесообразно организовать перебор моделей по группам равной структуры, что во многих случаях обеспечивает единственность минимума критерия.
	В случаях когда минимум выражен не ясно можно применить вспомогательную процедуру доопределения минимума. Нижняя часть переборной характеристики аппроксимируется уравнением параболы второй степени и определяется координата минимума параболы

2.1. Специальные способы поиска физической модели при зашумленных данных и коротких выборках для идентификации закономерностей. Для выяснения механизма действия объекта требуется знание его физической модели. Для ее нахождения используются описываемые ниже алгоритмы, которые основаны на применении критерия баланса переменных. 
	Критерий требует выбора такой структуры модели, при которой она остается оптимальной при последующем поступлении новых наблюдений с объекта. Для расчета критерия баланса выборка делится на две равные части - подвыборки А и В. На каждой подвыборке по Комбинаторному алгоритму МГУА получают ряд постепенно усложняющихся моделей.

3. ЗАДАЧА АППРОКСИМАЦИИ МНОГОМЕРНЫХ ПРОЦЕССОВ.
	Требуется при помощи перебора вариантов найти многомерную полиномиальную функцию времени, которая наиболее точно аппроксимирует функцию представленную в выборке данных. 
	При малой дисперсии помех и длинной выборке, для решения задачи можно применить дедуктивный метод самоорганизации физической модели. В случае значительной дисперсии следует применить индуктивный метод с поиском нефизической модели. При большой дисперсии приходится отказаться от полиномиальных моделей и перейти от параметрических полиномиальных моделей к непараметрическим кластеризациям и поиску аналогов в предыстории [9]. Эти рекомендации относятся к решению задач аппроксимации и прогнозирования процессов.
4. ЗАДАЧА КРАТКОСРОЧНОГО ПОШАГОВОГО ПРОГНОЗА ПРОЦЕССОВ.
	Исходная информация - та же что и в задаче аппроксимации процессов: задана выборка данных и указан точностной критерий, внутренний (при малых помехах) или внешний (при значительных). О величине дисперсии помех можно судить ориентировочно по величине критерия вариации ошибки прогноза выходной переменной, которую можно рассчитать только после прогноза.
	Основное различие решения задач аппроксимации и прогноза состоит в способе расчета критерия. Для решения задачи аппроксимации ошибка расчитывается в каждый текущий момент. Для выбора прогнозирующей модели, ошибка расчитывается на прогнозе с упреждением на один шаг времени вперед, т.е. для краткосрочного прогноза. Для выбора множества эффективных регрессоров (аргументов) и для самоорганизации разностной прогнозирующей модели рекомендуется использовать Комбинаторный алгоритм МГУА с учетом запаздывающих аргументов. Задается полный полином содержащий все аргументы и их запаздывающие значения, измеренные с отставанием на один и два шага. 
	Для повышения точности прогнозов следует расширить область регресии: в исходный полный полином могут быть введены текущие и запаздывающие значения других переменных, коррелированных с прогно-зируемой переменной. Рекомендуется также предложить компьютеру на выбор парные произведения (ковариации) аргументов. Алгоритм оставит в нефизической прогнозирующей модели только те слагаемые, которые обеспечивают наиболее глубокий минимум критерия.
	В случае слишком большой выборки данных, рекомендуется перейти к отсчету времени по нескольким шкалам. Например, для прогноза уровня воды в реке последний измерялся с усреднением по месяцам и годам. Для каждого месяца получена отдельная модель. Модели затем используются по очереди, для пошагового прогноза с заблаговременностью в один год [10]. Применение нескольких шкал отсчета времени есть один из эффективных способов обработки больших массивов данных.


5. ЗАДАЧА ДОЛГОСРОЧНОГО ПОШАГОВОГО ПРОГНОЗА.
	Прогноз называют долгосрочным если его время упреждения равно или больше десяти интервалов (шагов) измерения переменных в выборке данных. На протяжении всего прогноза критерий вариации ошибки прогноза должен быть меньше единицы. Долгосрочный прогноз получают при помощи многократного повторения одношагового краткосрочного прогноза. Однако, при этом с каждым шагом точность падает. Здесь возникает задача увеличения времени упреждения прогноза. 
	Кроме того, для многих структур разностных прогнозирующих моделей появляется опасность возникновения самопроизвольных автоколебаний прогноза, с некоторого его шага. Устойчивость разностных схем (называемых шаблонами) подробно исследована в дискретной математике. Здесь мы только назовем два способа повышения устойчивости:
1.	Применение двух шкал отсчета времени с переходом к неявным 	шаблонам; 
2.	Введение обратной связи исключающей определенную строку в выборке 	после каждого шага прогноза [11].



A.G.Ivakhnenko, G.A.Ivakhnenko "The Review of Problems Solvable by Algorithms of the Group Method of Data Handling (GMDH)", Pattern Recognition and Image Analysis, Vol. 5, No. 4, 1995, pp.527-535 

Источник: http://www.gmdh.net/articles/index.html