Итак,
минимизация
КЛ
выборки не является
самодостаточной и
открыт вопрос определения баланса
факторов,
влияющих на скорость обучения.
При предобработке
проще всего дополнительно
достигать
нулевых средних значений
переменных [3,4].
Ненулевые средние действительно
могут
замедлять обучение. Пусть переменные 2, 9
предобработаны через (2), а остальные -
через
(1), КЛ при этом равна 36.8. На Рис.6
показано число
итераций обучения 20 сетей при децентрировании входных сигналов 2 и 9,
линией дан квадратичный тренд, построенный над средними значениями
серий.
Имеется еще
один качественный
аспект -
шум в данных. Шум играет
ту же
ухудшающую роль, что и
разрывность аппроксимируемой функции: при
обучении
нейросеть постепенно вводит всё
более
высокочастотные члены разложения для
описания
скачка функции в области разрыва
или
для запоминания шума [13].
Это в
итоге ухудшает интерполяцию,
противодействием
является явная регуляризация решения
(например,
по Тихонову - нейровариант дан
в
[14]). Задачу классификации тоже
можно трактовать как
аппроксимацию
разрывной функции, поэтому здесь
применялся
другой возможный подход [13]:
с помощью
предобработки уменьшалась плотность точек выборки около
области
разрыва, что и выражалось в итоге в снижении КЛ.
Для разрывных
аппроксимируемых
функций
обычно можно локализовать область, точки которой
порождают
высокую КЛ, но шум может давать высокие КЛ и на всей
области значений переменных.
Поэтому для
первого случая можно получить бoльшее
относительное
снижение КЛ, чем для
второго, более гибко подобрав
предобработку.
Заключение
Полученные
результаты и выводы
являются
предварительными - необходимы дополнительные исследования для
подтверждения и уточнения тенденций, объяснений и гипотез, для изучения
устойчивости эффектов и степеней их проявления.
Однако,
наблюдение за
отдельными,
потенциально интересными показателями затрудняется
при
использовании многих эффективных приёмов и нейроалгоритмов. Так,
целевые функции с допуском
на
точность решения примера
позволят эффективно
оценивать [4] максимальное собственное
число
матрицы вторых производных целевой фунции по параметрам сети
только для начальных итераций обучения, так как затем всё большее число
примеров будет укладываться в допуск по точности, и всё меньшее число
недостаточно точно решенных примеров можно будет использовать для
оценивания.
Но всё же изучение
эффективности различных принципов предобработки
данных и их влияния на
свойства
результирующих нейросетей является
востребованным и
необходимым для возможности
расширения и
уточнения набора формальных правил
организации
процесса предобработки для задач обучения с учителем.
Литература
1. Миркес Е.М. Нейрокомпьютер: проект стандарта. Новосибирск:
Наука, 1999. - 337с.
2. Горбань
А.Н., Россиев
Д.А.
Нейронные сети на персональном
компьютере. Новосибирск: Наука, 1996. - 276с.
3. LeCun Y., Kanter I., Solla S.A. Second order properties of
error surfaces: learning time and generalization / Advances in Neural
Information Processing Systems 3 (1990). Morgan-Kaufmann, 1991.
pp.918-924.
4. LeCun Y., Bottou L., Orr G.B., M¸ller K.-R.
Efficient
BackProp / Neural Networks: Tricks of the trade (G.Orr and
K.M¸ller, eds.), Springer Lecture Notes in Comp. Sci. 1524,
1998.
pp.5-50.
5. Hamalainen J.J., Jarvimaki I. Input projection method for
safe
use of neural networks based on process data / Proc. IJCNN'1998,
Anchorage, Alaska, USA, 1998. ñ pp.193-198.
6. Царегородцев В.Г. Предобработка
обучающей
выборки, выборочная константа Липшица и
свойства обученных нейронных сетей
//
Материалы Х Всеросс. семинара
"Нейроинформатика и ее
приложения", Красноярск, 2002. 185с. - С.146-150.
7. Hara K., Nakayama K. Selection of minimum training data
for
generalization and on-line training by multilayer neural networks /
Proc. IEEE ICNN'1996, Washington, DC, USA, 1996, Vol.1. - pp.436-441.
8. Hara K., Nakayama K., Kharaf A.A.M. A training data
selection
in online-training for multilayer neural networks / Proc. IEEE
IJCNN'1998, Anchorage, Alaska, USA, 1998. ñ pp.2247-2252.
9. Robel A. Dynamic pattern selection for faster learning and
controlled generalization of neural networks / Proc. ESANN'1994,
Brussels, Belgium. 1994. - pp.187-192.
10. Michie D., Spiegelhalter D.J., Taylor C.C. Machine learning, neural
and statistical classification. Elis Horwood, London, 1994.
11. UCI KDD Database Repository. http://kdd.ics.uci.edu/
12. Ishikawa M., Yoshida K., Amari S. Designing regularizers
by
minimizing generalization error /Proc. IEEE IJCNN'1998, Anchorage,
Alaska, USA, 1998.- pp.2328-2333.
13. Chauvin Y. Dynamic behavior of constrained back-propagation
networks / Advances in Neural Information Processing Systems 2 (1989).
Morgan-Kaufmann, 1990.ñ pp.642-649.
14. Drucker H., LeCun Y. Improving generalization performance using
double backpropagation / IEEE Trans. on Neural Networks, 1992, Vol.3,
№6. - pp.991-997.