При этом все прототипы w. находятся в одинаковом положении. Рисунок 11 иллюстрирует эту ситуацию.
Рисунок 11. Наличие пропущенных компонент не препятствует нахождению ближайшего прототипа по оставшимся компонентам входного вектора
Таким образом, слой квантующих входные данные нейронов нечувствителен к пропущенным компонентам, и может служить "защитным экраном" для минимизации последствий от наличия пропусков в обучающей базе данных.
Отбор наиболее значимых входов
До сих пор мы старались лишь представить имеющуюся входную информацию наилучшим -наиболее информативным - образом. Однако, рассмотренные выше методы предобработки входов никак не учитывали зависимость выходов от этих входов. Между тем, наша задача как раз и состоит в выборе входных переменных, наиболее значимых для предсказаний. Для такого более содержательного отбора входов нам потребуются методы, позволяющие оценивать значимость входов.
Линейная значимость входов
Легче всего оценить значимость входов в линейной модели, предполагающей линейную зависимость выходов от входов:
Матрицу весов можно получить, например, обучением простейшего - однослойного
персептрона с линейной функцией активации. Допустим теперь, что при определении выходов мы опускаем одну, для определенности - к-ю компоненту входов, заменяя ее средним значением этой переменной. Это приведет к огрублению модели, т.е. возрастании ошибки на величину:
(Полагая, что данные нормированны на их дисперсию.) Таким образом, значимость к-го входа определяется суммой квадратов соответствующих ему весов.
Особенно просто определить значимость выбеленных входов. Для достаточно просто вычислить взаимную корреляцию входов и выходов:
Действительно, при линейной зависимости между входами и выходами имеем:
Таким образом, в общем случае для получения матрицы весов требуется решить систему линейных уравнений. Но для предварительно выбеленных входов имеем: = (j,, так что в этом случае матрица кросс-корреляций просто совпадает с матрицей весов обученного линейного персептрона: = w,.
Резюмируя, значимость входов в предположении о приблизительно линейной зависимости между входными и выходными переменными для выбеленных входов пропорциональна норме
столбцов матрицы кросс-корреляций: .Sj .
Не следует, однако, обольщаться существованием столь простого рецепта определения значимости входов. Линейная модель может быть легко построена и без привлечения нейросетей. Реальная сила нейроанализа как раз и состоит в возможности находить более сложные нелинейные зависимости. Более того, для облегчения собственно нелинейного анализа рекомендуется заранее освободиться от тривиальных линейных зависимостей - т.е. в качестве выходов при обучении подавать разность между выходными значениями и их линейным приближением. Это увеличит "разрешающую способность" нейросетевого моделирования (см. Рисунок 12).
Рисунок 12. Выявление нелинейной составляющей функции у = 10х + sin(x) + 0.5?7 после вычитания линейной зависимости у = \0х .( Здесь rj - гауссовый случайный шум)
Для определения "нелинейной" значимости входов - после вычитания линейной составляющей, изложенный выше подход неприменим. Здесь надо привлекать более изощренные методики. К описанию одной из них, алгоритмам box-counting, мы и переходим.
Нелинейная значимость входов. Box-counting алгоритмы
Алгортимы box-counting, как следует из самого их названия, основаны на подсчете чисел заполнения примерами Р. ячеек (boxes), на которые специально для этого разбивается
пространство переменных X® Y. Эти числа заполнения используются для оценки плотности вероятности распределения примеров по ячейкам. Набор вероятностей Pi=PilP дает
возможность рассчитать любую статистическую характеристику набора данных обучающей выборки.
Для определения значимости входов нам потребуется оценить предсказуемость выходов, обеспечиваемую данным набором входных переменных. Чем выше эта предсказуемость - тем лучше соответствующий набор входов. Таким образом, метод box-counting предоставляет в наше распоряжение технологию отбора наиболее значимых признаков для нейросетевого моделирования, технологию оптимизации входного пространства признаков.
Согласно общим положениям теории информации, мерой предсказуемости случайной величины X является ее энтропия, Н{Х), определяемая как среднее значение ее логарифма. В методике box-counting энтропия приближенно оценивается по набору чисел заполнения ячеек, на которые разбивается интервал ее возможных значений:
Н{Х) =-pf \ogpf. Качественно, энтропия есть логарифм эффективного числа
заполненных ячеек Н{Х) = log Л. (см. Рисунок 13). Чем больше энтропия переменной, тем
менее предсказуемо ее значение. Когда все значения примеров сосредоточены в одной ячейке - их энтропия равна нулю, т.к. положение данных определено (с данной степенью точности).