назад Оглавление вперед


[Старт] [1] [2] [3] [4] [5] [6] [ 7 ] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42]


7

способов осуществления этого механизма следующий: в расстояние между входным и весовым вектором вносится некоторая добавка, положительная для тех элементов, которые часто выигрывают, и отрицательная для тех, которые чаще проигрывают. Таким образом, шансы проигрывающих повышаются, и вся картина выравнивается. Величина добавки меняется в процессе обучения в соответствии с изменениями частоты выигрышей.

Перед началом работы сети Кохонена нужно сделать две вещи:

•векторы весов должны быть случайно распределены по единичной сфере,

•все весовые и входные векторы должны быть нормированы на единицу.

Сеть со встречным распространением

Сеть со встречным распространением (CPN, Counteфropagation Network) соединяет в себе свойства самоорганизующейся сети Ко-онена и концепцию Outstar-сети Гроссберга. В рамках этой архитектуры элементы слоя сети Кохонена не имеют прямого выхода во внещний мир, а служат входами для выходного слоя, в котором связям адаптивно придаются веса Гроссберга. Эта схема возникла из работ Хехт-Нильсена [138]. CPN-сеть нацелена на постепенное построение искомого отображения входов в выходы на основе примеров действия такого отображения. Сеть хорошо решает задачи, где требуется способность адаптивно строить математическое отображение по его точным значениям в отдельных точках.

Сети данного вида успешно применяются в таких финансовых и экономических приложениях, как рассмотрение заявок на предоставление займов, предсказание трендов цен акций, товаров и курсов обмена валют. Говоря обобщенно, можно ожидать успешного применения CPN-сетей в задачах, где требуется извлекать знания из больших объемов данных.

Обучение CPN-сети складывается из двух процессов адаптации. На первом этапе весовые векторы слоя Кохонена настраиваются так, чтобы моделировать распределение входных векторов. Очевидно, что этот процесс является процессом самостоятельной адаптации. При этом точность аппроксимации будет гарантирована только тогда, когда набор обучающих примеров будет статистически представительным (репрезентативным) для области, на которой действует отображение. Второй адаптационный процесс является несамостоятельным. Он начинается после того, как произошло обучение слоя Кохонена. Происходит настройка весов выходного слоя Гроссберга на примерах с заданным выходом. При этом настраиваются только

ПРИМЕЧАНИЯ

1 в другом варианте победителем считается элемент, весовой вектор которого имеет наибольшее скалярное произведение с входным вектором. Эта величина также является некоторой мерой близости, потому что скалярное произведение - это проектирование входного вектора на вектор весов. Очевидно, такая проекция будет наибольшей, если векторы имеют близкцр направления. При этом методе, однако, оба вектора - весовой и входной - должны бьггь нормированы по длине, например, быть равными единице. Напротив, евклидово расстояние позволяет работать с векторами произвольной длины.

веса, соответствующие связям с теми элементами слоя Кохонена, которые активируются (выигравшие элементы, посылающие выходной сигнал «1»), - вектор весов поворачивается в сторону целевого вектора.

Поскольку при подаче на вход очередного вектора может активироваться только один из элементов слоя Кохонена, возможные выходные сигналы CPN-сети совпадают с множеством весовых выходных векторов элементов Кохонена. В случае, когда слой Гроссберга состоит из единственного элемента, получающийся скалярный выход равен одному из весов, соответствующих соединениям этого элемента.



Применение нейронных сетей в задачах классификации и анализа временных рядов

в этой главе архитектура нейронных сетей рассматривается с точки зрения двух наиболее важных видов приложений - задач классификации и анализа временных рядов.

Задача классификации понимается как задача отнесения образца к одному из нескольких попарно непересекающихся множеств. Чаще всего мы будем рассматривать двоичную классификацию. Примерами могут служить определение прибыльности или неприбыльности данной инвестиции, или задача различения жизнеспособных и склонных к банкротству фирм. Задача анализа временных рядов заключается в том, чтобы получить будущие значения, некоторой величины, зная ее текущие и прошлые значения и располагая данными о среде.

НЕЙРОННЫЕ СЕТИ

В ЗАДАЧАХ КЛАССИФИКАЦИИ

Цель классификации

В предыдущей главе мы рассмотрели методы нейронных вычислений. В настоящей главе мы исследуем две главные области применения сетей с прямой связью: задачи классификации и моделирование временных рядов. Отличие между задачами этих двух типов состоит в наличии (временной) упорядоченности примеров.

Рассмотрим, как нейронные сети с прямой связью (или многослойные персептроны - MLP, Multilayer Perceptron) используются в задачах классификации. В чем, собственно, заключается эта задача? Во-первых, в любой задаче классификации требуется отнести имеющиеся статические образцы (рукописные буквы, звуковые сигналы, характеристики финансового положения) к определенным классам. Разнообразие примеров, возникающих в реальном мире, практически бесконечно. Эффективность классификации зависит от способа представления этих форм. В числе других здесь имеются следующие способы: распознавание образов, структурное представление и ста-

Линейно отделимые Нелинейно отделимые

Неразделимые

Рис. 2.1. Различные степени сложности в представлении классов. Заштрихованные фигуры изображают совокупность всех возможных образцов

При решении задачи распознавания статистическими методами важнейшее значение имеет правильный выбор способа статистического представления объекта. Тем самым, нужно проделать предварительную обработку данных. Для того чтобы выбрать характерные отличительные признаки объектов, требуется, как правило, серьезное изучение исходной проблемы. Например, в моделях банкротства банков важное значение имеют такие показатели, как опыт в управлении фондами и соответствие требованиям адекватности капитала. Различные наборы признаков приводят к разным распределениям. При этом в разных вариантах дисперсия и свойства выпуклости кластеров во входном пространстве могут сильно отличаться, соответственно, при их разделении потребуется проводить границы разной степени сложности - от линейных до сильно нелинейных. Чем лучше была сделана предварительная обработка, тем легче будет решена задача классификации.

Прежде всего нужно определиться с выбором уровня сложности. В реальных ситуациях часто бывает так, что имеется лишь относительно небольшое число образцов, а структура данных позволяет выделить следующие три уровня сложности. Первый (простейший) - когда классы можно разделить прямыми линиями (или гиперплоскостями, если пространство имеет размерность больше двух). Этот случай называется линейной отделимостью. Во втором случае одной гиперплоскости для разделения недостаточно {нелинейная отдели-

тистическое представление. В структурном распознавании образов образцы описываются тем, как они составлены из своих компонент, т.е. структурой, подобно тому, как это делается в грамматике языка. Распознавание в этом случае основывается на применении определенных синтаксических правил. При статистическом подходе к распознаванию образец представляется вектором х е 5R, компоненты которого представляют собой различные характеристики (дескрипторы) образца. Классификатор относит объект к тому или иному классу С в соответствии с определенным разбиением N-мерного пространства, которое называется пространством входов.



мость), а в третьем случае классы пересекаются, и поэтому разделить их можно только в вероятностном смысле.

В идеальном варианте предварительная обработка должна дать такой набор признаков, чтобы задача оказалась линейно отделимой, - классификация после этого существенно упрощается. К сожалению, это редко удается сделать. Как правило, в нашем распоряжении имеется лишь ограниченный набор образцов, и часть из них используется для проведения границ, разделяющих классы («построение классификатора»). Качество классификатора по отношению к имеющимся примерам измеряется оценкой. При последуюп;ей работе классификатора с новыми образцами происходит обобщение. Возможные способы оценить способность к обобщению мы рассмотрели в предыдущей главе.

Вероятностная классификация

Вероятность того, что произойдет событие А, обозначается Р{Л). Если, например, событие А состоит в том, что подброшенная монета (правильной формы) упадет вверх орлом, то вероятность Р{Л) равна 0.5. Через Р{А I В\ обозначается условная вероятность события А при условии, что произойдет событие В. Вероятность того, что при двух бросаниях монеты оба раза выпадет орел, равна Р{2Л} = 0.25. Условная вероятность выпадения двух орлов при условии, что в первый раз выпал орел (событие В), - частный случай условной вероятности, который называется апостериорной вероятностью. Так как результаты бросаний монеты независимы, знание первого из них ничего не говорит о втором, и поэтому Р{Л} = Р{Л I В} = 0.5 . Для задач классификации более характерны зависимые события, когда наши знания о В влияют на ожидаемую вероятность А.

При статистическом распознавании образов оптимальный классификатор относит образец х к классу С, руководствуясь решающим правилом Байеса. Для двух классов оно выглядит так:

•Отнести л:* к Q , если V\C,\ x]>V\C\ х},

•Отнести л:* к С2,если PIQ Iл:*} <PjQ Iл:*}.

Смысл правила простой: образец х* относится к группе, имеющей наибольшую апостериорную вероятность. Это правило оптимально в том смысле, что оно минимизирует среднее число неправильных классификаций. Если имеется такая пара функций {фДл:),ф2(х)}, что выполнены условия:

Ф, {х) < ф2 {х\ tarn Р {Q I < Р {Q I , Ф1 [х) > ф2 {х), если Р {С, I д;} > Р [С I х}.

то байесовское соотнощение между априорной и апостериорной вероятностью сохраняет силу, и поэтому эти функции можно использовать в качестве упрощенных решающих функций. Так имеет смысл делать, если эти функции строятся и вычисляются более просто.

Хотя правило выглядит очень простым, применить его на практике оказывается трудно, так как бывают неизвестны апостериорные вероятности (или даже значения упрощенных решающих функций). Их значения можно оценить. В силу теоремы Байеса апостериорные вероятности можно выразить через априорные вероятности и функции плотности по формуле Р{С,. I х} = Р{С, }Щх I С, l/J Р{С ]Р{х I },

где j - номер класса. Таким образом, правило Байеса для произвольного числа классов принимает вид:

• Отнести д; к С;, если Р {х I С,) Р {С;} > Р {д; I Су) Р {Су) для всех i.

Классификаторы образцов

Априорную плотность вероятности можно оценить различными способами. В параметрических методах предполагается, что плотность вероятности (PDF) является функцией определенного вида с неизвестными параметрами. Например, можно попробовать приблизить PDF при помощи гауссовой функции. Для того чтобы произвести классификацию, нужно предварительно получить оценочные значения для вектора среднего и матрицы ковариаций по каждому из классов данных и затем использовать их в решающем правиле. В результате получится полиномиальное решающее правило, содержащее только квадраты и попарные произведения переменных. Вся описанная процедура называется квадратичным дискриминантным анализом (QDA). В предположении, что матрицы ковариаций у всех классов одинаковы, QDA сводится к линейному дискриминантному анализу (LDA).

В методах другого типа - непараметрических - никаких предварительных предположений о плотности вероятности не требуется. В методе «к ближайших соседей» (ШЫ) вычисляется расстояние между вновь поступившим образцом и векторами обучающего множества, после чего образец относится к тому классу, к которому принадлежит большинство из к его ближайших соседей. В результате этого границы, разделяющие классы, получаются кусочно линейными. Ряд применений ШМ-метода будет рассмотрен в гл. 8. В различных модификациях этого метода используются различные меры расстояния и специальные приемы нахождения соседей. Иногда вместо самого

[Старт] [1] [2] [3] [4] [5] [6] [ 7 ] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42]