A,.,=(l-)A,-/7(j-/)
Это уравнение включает
экспоненциальное затухание А: в отсутствие нового входа А стремится к нулю со скоростью пропорциональной (1 - А:) к [0,1].
член, пропорциональный ошибке выходного значения {у - у"- аналогичная пропорциональность свойственна и обычному соотношению для модификации весов -чем больше ошибка, тем больше ее влияние на исправление входного значения. Этот член также пропорционален чувствительности выхода ко входу - dyjdx .
Вайгенд и его коллеги предложили наглядную механическую интерпретацию минимизируемой функции, а также отношению скоростей обучения и исправления (см. Рисунок 4).


Рисунок 4. Механическая аналогия конкуренции между обучением и
исправлением данных. К реальному входу х присоединяется пружина и растягивается другим концом до точки X, что сопровождается
увеличением энергии в пружине на \к{х - х). Но при этом энергия,
запасенная в пружине, связывающей реальное и желаемое значения выхода сети, может уменьшиться (растяжение правой пружины меньше, чем левой) так, что суммарная энергия двух пружин уменьшается.
При обычном обучении (без исправления входного вектора) данные располагаются в пространстве вход-выход. Наблюдаемое выходное значение состояния выходного нейрона может рассматриваться как поверхность над пространством входов. Точки, изображающие данные обучающего набора вертикально прижимаются к этой поверхности пружинами, которые запасают некоторую энергию сжатия. Сложность нейронной сети определяется в конкуренции между жесткостью поверхности и жесткостью пружин. В одном из предельных случаев, бесконечно мягкая сеть (поверхность) пройдет как раз через все точки, определяемые данными. В противоположном случае, чрезмерно эластичные пружины не будут оказывать воздействия на поверхность и менять нейронную сеть.
где индекс / определяет номер итерации данного входа. Представляя в виде суммы
подлинного начального входного значения х и поправки А,, получим для последней следующее уравнение итерационного изменения
Понимание закономерностей временных последовательностей
Исправление данных является важной компонентой подхода, позволяющего извлекать из нейронных сетей знания, касающиеся воспроизводимых ими временных закономерностей. Если, например, нейронная сеть обучена и используется для предсказания курса рубля по отношению к доллару, то естественно попытаться осмьюлить связь большего или меньшего падения этого курса с теми или иными параметрами, подаваемыми на вход нейронной сети.
Кравен и Шавлик (Craven & Shavlik, 1996) разработали алгоритм TREPAN, порождающий дерево решений, аппроксимирующее поведение обученной нейронной сети. Важным достоинством алгоритма является то, что он не предъявляет никаких требований к архитектуре сети, числу ее элементов и связей (вспомним как важно было упростить структуру сети при использовании правила NeuroRule). Для него вполне достаточно того, что нейронная сеть является черным ящиком или Оракулом, которому можно задавать вопросы и получать от него ответы. Точность предсказания, даваемое сгенерированным деревом решений, близка к точности нейросетевого предсказания.
Приведем формальную схему алгоритма
TREPAN
Исходные данные обученная нейронная сеть (Оракул); обучающая выборка - 5"; множество признаков - i min sample - минимальное множество вопросов для каждого узла дерева, baem width - число ветвей.
Инициализируем корень дерева R в виде листа. <Выборка векторов признаков»
Используем все обучающее множество примеров 5" для конструирования модели Mj распределения входных векторов, достигающих узла R.
q: = m3i>i{0,rcmi sample-\S\)
query: = множество из q примеров, генерируемых моделью .
<Используем нейронную сеть для классификации всех векторов признаков>
Для каждого вектора признаков X G (5" U query,) узнаем у Оракула принадлежность х тому или иному классу - ставим метку класса х: = Oracle(x)
<Осуществляем наилучшее первое расширение дерева>
Инициализируем очередь Queue , составленную из наборов {R, S, query,,{}
Введение механизма исправления данных соответствует добавлению пружин в пространстве входов - между каждой точкой данных х и исправленным значением х. Энергия, запасенная в этих пружинах составляет / 2. Минимизация суммарной функции ошибки соответствует минимизации полной энергии, запасенной в обеих типах пружин. Отношение rj I А: описывает конкуренцию между важностью ошибок выхода и важностью ошибок входа.
©А.Ежов и С.Шумский, 1998 До тех пор пока очередь Queue не пуста и глобальный критерий остановки не выполнен <создаем узел в начале очереди Queue >
удаляем (узел Л, бд,, query, constrj ) из начала очереди Queue .
Используем F, бд,, queryи beam width для конструирования в узле разветвления Т. <создаем узлы следующего поколений> Для каждого ответвления t разветвления Т создаем С - новый дочерний узел соп$1Г(.: = constTfj и {Г = /} <выборка векторов для узла С>
: = члены с ответвлением t.
Конструируем модель М распределения примеров, покрываемых узлом С
q:= тах(0,ппп sample-\S )
query: = множество из q примеров, сгенерированных моделью Af и ограничением
constr
Для каждого вектора признаков X G query ставим метку класса х: = Oracle(x)
<временно принимаем, что узел С является листом>
Используем 5"- и query для определения метки класса для С.
<Определяем долен ли узел С расширяться> если локальный критерий остановки не удовлетворен то
поместить <C,Sf, query , constr > в очередь Queue . Вернуть дерево с корнем R .
TREPAN поддерживает очередь листьев, которые раскрываются и порождают поддеревья. В каждом узле очереди TREPAN сохраняет: (i) подмножество примеров, (ii) еще одно множество векторов, который называется набором вопросов {query) и (iii) набор ограничений {constr).
Подмножество примеров включает просто те векторы обучающего набора, которые достигают данного узла дерева. Дополнительный набор вопросов Оракулу используется для выбора теста на разветвление в узле и определения класса примеров, если узел является листом. Алгоритм всегда требует, чтобы число примеров, на основе которых оценивается узел, было бы не меньше заданного {min sample). Если же до данного узла доходит меньшее число примеров, TREPAN генерирует новые искусственные примеры, используя набор ограничений в данном