Тарасенко Р.А., Крисилов В.А. - Предварительная оценка качества обучающей выборки для нейронных сетей в задачах прогнозирования временных рядов

Нейронные сети являются перспективной альтернативой традиционным методам решения нелинейных задач прогнозирования временных рядов (ВР) [1,2]. Тем не менее, прогнозирование является чрезвычайно трудной задачей, поскольку традиционная архитектура нейронных сетей (НС) и методы формирования обучающей выборки для них не совсем подходят для распознавания образов, которые изменяются с течением времени. Изначально НС предназначались для распознавания структурных образов. В таких задачах сети демонстрируется образ, состоящий из набора визуальных, семантических или других свойств, и сеть должна распознать входной образ, как принадлежащий одному или нескольким классам. Например, сеть может классифицировать клиента на основании набора атрибутов, его описывающих, или сеть может быть обучена распознаванию букв в двумерном массиве точек. В этом случае каждый раз сеть обладает полной информацией о распознаваемом образе.

В противоположность этому при прогнозировании ВР обрабатываются образы, которые изменяются с течением времени. Прогноз зависит, вообще говоря, не только от текущих значений, но и от всех предыдущих значений прогнозируемой величины. В такой ситуации успех прогнозирования в первую очередь зависит от способа формирования обучающей выборки (ОВ) [3]. На сегодняшний день, единственным способом оценки качества ОВ является обучение на ней НС, что может потребовать значительных затрат времени. Желательно знать качество ОВ, не проводя обучения НС. Если качество сформированной ОВ невысоко, необходимы рекомендации по его повышению.

Наличие индицирующих показателей качества ОВ позволяет значительно снизить затраты времени на формирование модели прогнозирования, являющиеся для ряда задач реального времени основными затратами времени. Определение качества ОВ базируется на определении степени похожести ситуаций, описываемых наборами ОВ. В классической задаче классификации показатели, определяющие степень похожести, используются редко, на их основании невозможно предложить сколько-нибудь конструктивные рекомендации по улучшению качества распознавания. Причина заключается в том, что размер распознаваемого образа и формулировка распознаваемых классов в задаче классификации во многом фиксированы. В задачах прогнозирования ВР мы обладаем значительной возможностью управлять размером распознаваемого образа и формулировкой распознаваемых классов. В подобных условиях наличие эффективных показателей качества ОВ становится чрезвычайно важным. К сожалению, известные меры похожести ситуаций обладают двумя важными недостатками: они не учитывают особенности НС как универсального средства аппроксимации и их вычисление достаточно трудоемко [4].

Для оценки качества ОВ необходим показатель, характеризующий сходство образов внутри каждого из классов ОВ, и показатель, характеризующий степень внутренней противоречивости ОВ, характеризующий сходство образов в разных классах. Эти показатели должны иметь невысокую, по сравнению с существующими показателями, трудоемкость расчета. Предлагаем ввести их следующим образом. Показатель, характеризующий количество одинаковых образов в классах, назовем повторяемостью ОВ. Показатель, характеризующий количество одинаковых образов, которые принадлежат разным классам, назовем противоречивостью ОВ.

Рассмотрим эти показатели подробнее. Учитывая, что НС являются универсальным средством аппроксимации, противоречивыми будем считать наборы, описывающие одинаковые ситуации, но принадлежащие к разным классам. Поскольку каждая ситуация описывается не дискретными значениями, а действительными числами, нельзя говорить о точном совпадении ситуаций. Для оценки противоречивости наборов перейдем от описания входного вектора в виде значений ВР к его описанию в виде номеров классов, к которым принадлежат соответствующие значения ВР. Данная мера, также как и в случае определения векторного расстояния, требует NP-полного перебора, однако, трудоемкость самого расчета значительно снижена. Вместо расчета расстояний в n-мерном пространстве мы проводим покоординатное сравнение векторов.

Возьмем два набора: A = { a₁, a₂,..., a_n, c_a } и B = { b₁, b₂,..., b_n, c_b }, где a_i, b_i (i ∈ 1;n) — описывает распознаваемую ситуацию в терминах временного ряда, c_a, c_b — номер класса распознаваемого образа. Для определения степени противоречивости переходим к векторам A^' = { a^'₁, a^'₂,..., a^'_n, c_a } и B^' = { b^'₁, b^'₂,..., b^'_n, c_b }, где a^'_i, b^'_i (i ∈ 1;n) — номер класса, соответствующего значению прогнозируемой величины. Наборы A и B считаются противоречивыми, если a^'_i = b^'_i (i ∈ 1;n) и c_a ≠ c_b.

Противоречивость наборов A и B

формула 1

где δ_ab — противоречивость наборов A и B;
n_c — общее число классов в ОВ.
Противоречивость ОВ

формула 2

где n_l — число наборов в ОВ.
Наборы A и B считаются повторяющимися, если a^'_i = b^'_i (i ∈ 1;n) и c_a = c_b. Повторяемость наборов для класса c_i

формула 3

где n^ρ_i — число повторяющихся наборов в классе i;
n^c_i — общее число наборов в классе i.
Повторяемость ОВ

формула 4

где n_c — общее число классов в ОВ.

Введя понятия противоречивости и повторяемости, мы получили мощное средство, которое позволяет определить качество ОВ, а следовательно и успешность обучения НС до его проведения. Качество выборки и успешность обучения определяется значениями параметров повторяемости и противоречивости и их сочетанием.

Повторяемость ОВ характеризует число одинаковых наборов в классах. На основе анализа повторяемости ОВ делается заключение о том, насколько удачно выбрано вид и размер описания ситуации. Повторяемость ОВ также может служить некоторой характеристикой полноты ОВ и в меньшей степени характеристикой качества формулировки классов.

На основании того, что число повторяющихся наборов не зависит от числа противоречивых наборов, можно доказать, что повторяемость и противоречивость являются независимыми параметрами. Для обучения НС важно не столько соотношение между ними, сколько их сочетание. Рассмотрим, как сочетание значений повторяемости и противоречивости ОВ характеризуют ее качество и успешность обучения НС.

Варианты сочетаний повторяемости и противоречивости ОВ

На основании анализа возможных сочетаний значений повторяемости и противоречивости (см. рисунок) делается общий вывод качестве ОВ и о способах повышения качества ОВ и, следовательно, обеспечения успешного обучения НС.

1 — обучение НС затруднено, задача в таком виде не может быть решена, в первую очередь необходимо применение методов повышения повторяемости ОВ.
2 — обучение НС затруднено, решение задачи неустойчивое, необходимо применение методов снижения противоречивости данных ОВ.
3 — обучение НС затруднено, необходимо применение методов снижения противоречивости данных ОВ, классы сформированы некомпактно, они должны быть укрупнены.
4 — решение задачи неустойчиво, проявляется эффект переобучения, необходимо применение методов повышения повторяемости.
5, 6 — при использовании НС с простой архитектурой обучение затруднено, при использовании НС с разветвленной архитектурой решение задачи неустойчивое, проявляется эффект переобучения, рекомендовано изменение способа разбиения на классы.
7 — не выполняется один из принципов формирования ОВ: в случае не выполнения принципа инвариантности необходимо применение методов повышения повторяемости ОВ, в случае не выполнения принципа ограниченности числа классов улучшение параметров ОВ можно достичь за счет пополнения ОВ или за счет применения методов повышения повторяемости ОВ.
8 — оптимальное сочетание значений параметров повторяемости и противоречивости ОВ для качественного обучения НС.
9 — идеальное сочетание значений параметров повторяемости и противоречивости, для реальных приложений означает отсутствие достаточного количества данных, НС после обучения превращается в аналог мультиплексора, а ее решающее правило превращается в булеву функцию, качество прогнозирования такой сети обычно невелико.

Методы повышения повторяемости повышают противоречивость ОВ. В свою очередь, методы снижения противоречивости снижают повторяемость, но в меньшей степени. Для повышения качества ОВ в первую очередь применяются методы повышения повторяемости, а потом, если необходимо, методы снижения противоречивости.

В качестве примера применения предложенных параметров для оценки качества ОВ была взята задача биржевых спекуляций. Для типовой задачи биржевого прогнозирования число наборов составляет порядка 10000, размер описания образа составляет порядка 20 значений. Затраты времени на вычисление критериев повторяемости и противоречивости эквивалентны 10—30 итерациям обучения сети. Для получения обученной НС, которую можно было бы тестировать, число итераций должно быть не менее числа наборов [3]. Таким образом, трудоемкость оценки вариантов снижается на три порядка. Модель прогнозирования строилась независимо двумя методами: “проб и ошибок” и с использованием предложенных критериев для оценки качества ОВ. В результате были получены две модели, параметры которых (период прогнозирования, размер описания образа и т.д.) отличались не более чем на 8,3%. На построение модели первым методом понадобилось около 4 суток. Построение модели на основании критериев повторяемости и противоречивости заняло около 2 часов.

Проведенные исследования показали возможность и целесообразность использования в задачах прогнозирования нестационарных временных рядов для анализа и оценки качества ОВ для НС критериев повторяемости и противоречивости, сущность проблемы прогнозирования. При этом анализ качества ОВ может быть выполнен до проведения обучения НС. На основании анализа этих критериев можно предлагать рекомендации по повышению качества ОВ.

Литература

Weigend A.S., Huberman B.A., Rumelhart D.F. Prediction the future: A connectionist approach //Intern. J. of Neural Systems. — 1990. — vol. 1.— P. 193 — 209.
Weigend A.S., Rumelhart D.E., Huberman B.A. Generalization by weight-elimination with application to forecasting //Advances in Neural Information Processing Systems 3 / Lippmann R.P., Moody J.E., Touretzky D.S. — San Mateo, CA: Morgan Kaufmann, 1991. — P.875 — 882.
Carling A. Introducing Neural Networks. — Wilmslow, UK: Sigma Press, 1992.
Fausett L. Fundamentals of Neural Networks. — New York: Prentice Hall, 1994.