назад Оглавление вперед


[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [ 42 ] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71]


42

задачи вместо более сложного условия статистической независимости потребуем, чтобы новые входы после такого преобразования были декоррелированы". Для этого рассчитаем средний векгор и ковариационную матрицу данных по формулам:

1 \ =

а=1 а=\

Затем найдем линейное преобразование, диагонализующее ковариационную матрицу. Соответствующая матрица составлена из столбцов - собственных векторов ковариационной матрицы:

Легко убедиться, что линейное преобразование, называемое выбеливанием (whitening)

превратит все входы в некоррелированные величины с нулевым средним и единичной дисперсией.

Если входные данные представляют собой многомерный эллипсоид, то графически выбеливание выглядит как растяжение этого эллипсоида по его главным осям (Рисунок 4).

Рисунок 4. Выбеливание входной информации: повышение информативности входов за счет выравнивания функции распределения

Очевидно, такое преобразование увеличивает совместную энтропию входов, т.к. оно выравнивает распределение данных в обучающей выборке.

" АаёТаааёёаТаа[[йа ааёё-iiu х, ё1аэ6 ioeaaua ёатпп-ётаааёубёё: {х, - х, ){xj -х) = О, V; * j



Понижение размерности входов

Сильной стороной нейроанализа является возможность получения предсказаний при минимуме априорных знаний. Поскольку заранее обычно неизвестно насколько полезны те или иные входные переменные для предсказания значений выходов, возникает соблазн увеличивать число входных параметров, в надежде на то, что сеть сама определит какие из них наиболее значимы. Однако, как это уже обсуждалось в Главе 3, сложность обучения персептронов быстро

возрастает с ростом числа входов (а именно - как куб размерности входных данных С ccd). Еще важнее, что с увеличением числа входов страдает и точность предсказаний, т.к. увеличение числа весов в сети снижает предсказательную способность последней (согласно

предыдущим оценкам: £ > Jd/P ).

Таким образом, количество входов приходится довольно жестко лимитировать, и выбор наиболее информативных входных переменных представляет важный этап подготовки данных для обучения нейросетей. Глава 4 специально посвящена использованию для этой цели самих нейросетей, обучаемых без учителя. Не стоит, однако, пренебрегать и традиционными, более простыми и зачастую весьма эффективными методами линейной алгебры.

Один из наиболее простых и распространенных методов понижения размерности -использование главных компонент входных векторов. Этот метод позволяет не отбрасывая конкретные входы учитывать лишь наиболее значимые комбинации их значений.

Понижение размерности входов методом главных компонент

Собственные числа матрицы ковариации Я;, фигурировавшие в предыдущем разделе,

являются квадратами дисперсий вдоль ее главных осей. Если между входами существует линейная зависимость, некоторые из этих собственных чисел стремятся к нулю. Таким образом, наличие малых Я, свидетельствует о том, что реальная размерность входных данных объективно ниже, чем число входов. Можно задаться некоторым пороговым значением s и ограничиться лишь теми главными компонентами, которые имеют Л>£Л. Тем самым,

достигается понижение размерности входов, при минимальных потерях точности представления входной информации.



= w-x

Рисунок 5. Понижение размерности входов методом главных компонент. Восстановление пропущенных компонент данных

Главные компоненты оказываются удобным инструментом и для восстановления пропусков во входных данных. Действительно, метод главных компонент дает наилучшее линейное приближение входных данных меньшим числом компонент: х = wx (Здесь мы, как и прежде, для учета постоянного члена включаем фиктивную нулевую компоненту входов, всегда равную единице - см. Рисунок 5, где справа показана нейросетевая интерпретация метода главных компонент. Таким образом, w - это матрица размерности N x{d + 1)). Восстановленные по

Л главным компонентам данные из обучающей выборки х" = wx = wwx" имеют наименьшее среднеквадратичное отклонение от своих прототипов х". Иными словами, при

отсутствии у входного вектора к компонент, наиболее вероятное положение этого вектора - на гиперплоскости первых N = {d -к) главных компонент. Таким образом, для

восстановленного вектора имеем: х" = wx = wwx", причем для известных компонент х" = х".

Пусть, например, у вектора х" неизвестна всего одна, к-я координата. Ее значение находится из оставшихся по формуле:

xf =

h /

где в числителе учитываются лишь известные компоненты входного вектора х .

В общем случае восстановить неизвестные компоненты (с индексами из множества К) можно с помощью следующей итеративной процедуры (см. Рисунок 6):

[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [ 42 ] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71]