назад Оглавление вперед


[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [ 23 ] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71]


23

Aw[ = /7/(j;)(x-E,/U)w,)

приводит к новому качеству (Oja, et al, 1991). Такой алгоритм, в частности, с успехом применялся для разделения смешанных неизвестным образом сигналов (т.н. blind signal separation). Эту задачу каждый из нас вынужден решать, когда хочет выделить речь одного человека в шуме общего разговора.

Однако нас здесь интересуют не конкретные алгоритмы, а, скорее, общие принципы выделения значимых признаков, на которых имеет смысл остановиться несколько более подробно.

Точнее - выходы сети Ойа являются линейными комбинациями первых Ш главных компонент. Чтобы получить в точности сами главные компоненты достаточно в правиле Ойа заменить суммирование по всем выходам на:

признаки, осуществляя оптимальное линейное сжатие информации. Более того, можно показать, что сжатие информации слоем Ойа эквивалентно анализу главных компонент. Это и не удивительно, поскольку оба метода оптимальны при одних и тех же ограничениях.

Однако стандартный анализ главных компонент дает решение в явном виде, через последовательность матричных операций, а не итерационно, как в случае нейросетевых алгоритмов. Так что при отсутствии высокопараллельных нейроускорителей на практике удобнее пользоваться матричными методами, а не обучать нейросети. Есть ли тогда практический смысл в изложенных выше итеративных нейросетевых алгоритмах?

Конечно же есть, по крайней мере по двум причинам:

Во-первых, иногда обучение необходимо проводить в режиме on-line, т.е. на ходу адаптироваться к меняющемуся потоку данных. Примером может служить борьба с нестационарными помехами в каналах связи. Итерационные методы идеально подходят в этой ситуации, когда нет возможности собрать воедино весь набор примеров и произвести необходимые матричные операции над ним.

Во-вторых, и это, видимо, главное, нейроалгоритмы легко обобщаются на случай нелинейного сжатия информации, когда никаких явных решений уже не существует. Никто не мешает нам заменить линейные нейроны в описанных выше сетях - нелинейными. С минимальными видоизменениями нейроалгоритмы будут работать и в этом случае, всегда находя оптимальное сжатие при наложенных нами ограничениях. Таким образом, нейроалгоритмы представляют собой удобный инструмент нелинейного анализа, позволяющий относительно легко находить способы глубокого сжатия информации и выделения нетривиальных признаков.

Иногда,даже простая замена линейной функции активации нейронов на сигмоидную в найденном выше правиле обучения:



Нелинейный анализ главных компонент

Целевая функция

Наглядной демонстрацией полезности нелинейного анализа главных компонент является следующий простой пример (см. Рисунок 7).

Рисунок 7. Анализ главных компонент дает линейное подпространство, минимизирующее отклонение данных (а). Он не способен, однако, выявить одномерный характер распределения данных в случае (Ь). Для их одномерной параметризации нужны нелинейные координаты.

Он показывает, что в общем случае нас интересует нелинейное преобразование у = F(w,x), FiRR™ {d>m), сохраняющее максимальное количество информации о

распределении данных в обучающей выборке {х"} и являющееся наиболее сжатым

представлением этих данных. Такое представление данных, не поддающееся дальнейшему сжатию, обладает максимальной энтропией, т.е. их статистическое распределение не отличимо от случайного шума. Таким образом, в общем случае целевой функцией при сжатии данных

является максимизация энтропии: maxi/(y). Естественно, при этом предполагается

ограниченность диапазона изменения выходов, например: у g неограниченного роста энтропии.

во избежании

Автоассоциативные сети

Весьма общим подходом к понижению размерности является использование нелинейных автоассоциативных сетей. В общем случае они должны содержать как минимум три скрытых слоя нейронов. Средний слой - узкое горло, будет в результате обучения выдавать сжатое представление данных у. Первый скрытый слой нужен для осуществления произвольного

нелинейного кодирования, а последний - для нахождения соответствующего декодера (Рисунок 8).



тах(/(х,у))с тт{я(ху)}

Рисунок 8. Понижение размерности с помощью автоассоциативных сетей. Минимизация ошибки воспроизведения сетью своих входов эквивалентна оптимальному кодированию в узком горле сети.

Задачей автоассоциативных сетей, как уже говорилось, является воспроизведение на выходе сети значений своих входов. Вторая половина сети - декодер - при зтом опирается лишь на кодированную информацию в узком горле сети. Качество воспроизведения данных по их

кодированному представлению измеряется условной энтропией н{ху. Чем она меньше, тем

меньше неопределенность, т.е. лучше воспроизведение. Нетрудно показать, что минимизация неопределенности эквивалентна максимизации энтропии кодирования:

minH{xyj = 1шпя(х,у) - я(у) = maxя(у).

Действительно, механическая процедура кодирования не вносит дополнительной неопределенности, так что совместная энтропия входов и их кодового представления равна

энтропии самих входов Я(х,у) = Я(х) + Я(ух) = Я(х) и, следовательно, не зависит от

параметров сети.

Привлекательной чертой такого подхода к сжатию информации является его общность. Однако многочисленные локальные минимумы и трудоемкость обучения существенно снижают его практическую ценность.

Более компактные схемы сжатия обеспечивает метод предикторов.

Предикторы

Условие максимизации совместной энтропии выходов можно переписать в виде:

maxЯ(у) = тах(- log Р(у)) = тах(- log р(у„\у„ ,...у,)-...-log р(у2\у,) - log Р{у,))

Условные вероятности, входящие в это выражение, характеризуют разброс предсказаний каждого выхода, основанного на знании других выходов, стоящих справа от горизонтальной черты. Предположим, что мы используем дополнительные сет]л-предикторы, по одной для каждого выхода, специально обучаемые такому предсказанию (Рисунок 9).

Энтропия случайной величины по порядку равна логарифму характерного разброса ее значений Н{х) ~ log

[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [ 23 ] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71]