назад Оглавление вперед


[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [ 24 ] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42]


24

0.85000 г

50.75000

1"0.65000

S0.55000

S 0.45000

0.35000 I 0.25000 h 0.15000

ГОГОГОГОГОГГ1ГОГОГОГОГОГОГГ1ГОГОГО

Случай

VWNY

Регрессия

Сеть

Рис. 6.3. Сравнение оценочных значений переменной VWNY, полученных регрессией и сетью, с ее истинными значениями

Среди всех конфигураций наилучшей (имеющей наименьшее RMSE на подтверждающем множестве) оказалась 6-3-1 сеть с прямыми связями и коэффициентом обучения 0.9. Желая получить решение за кратчайшее время (в пределах 13 тыс. эпох), мы увеличили коэффициент обучения в два раза (до 2). Шаги в направлении градиента теперь стали очень большими, и мы перескакивали через решение. Поэтому даже оптимально обученной сети понадобилось гораздо больше, чем 13 тыс. эпох (а именно, 22 тыс.). На рис. 6.1 видно, как RMSE быстро убывает в первые 500 эпох, а после 12 тыс. эпох начинает осциллировать.

На рис. 6.3 показаны оценки, полученные на подтверждающем множестве (которое соответствует 1981-85 гг.) с помощью OLS-регрессии и 6-3-1 сети.

Оценки, которые выдала сеть, оказались лучше всех, которые дает регрессионный анализ, как по показателю RMSE, так и коэффициентам корреляции Пирсона. При этом результаты, которые сеть показывает на новых образцах, даже превосходят те, которые регрессия имела на обучающем множестве (REG1).

До сих пор мы сравнивали между собой сетевые архитектуры с различным числом скрытых слоев и нейронов, предполагая, что каждый входной сигнал, действительно, влияет на результат. Однако, как уже говорилось, непредвиденная инфляция (UI) и месячное производство (MP) существенно не влияют на среднеквадратичную ошибку. В связи с этим возникает вопрос о том, нельзя ли эти переменные безболезненно изъять из дальнейшего рассмотрения. Явля-

- при 1-процентных хвостах распределения

Таблица 6.4. Критерии согласия для выходов регрессии и сети

RMSE

DC631

UI(0 DEI(0

URP(t)

иТ8(0

MP(f+l) YP(f+12)

Общ.

0.117

0.118 0.120

0.141

0.148

0.117

0.119

Обуч.

0.119

0.120 0.123

0.143

0.139

0.119

0.121

Тест.

0.105

0.106 0.108

0.128

0.191

0.106

0.108

Разница в RMSE (

в процентах)

Общ.

0.94 2.88

20.30

26.45

0.33

1.74

Обуч.

0.91 2.87

* 20.02

16.54

0.26

1.51

Тест.

1.19 2.95

22.27

82.91

0.82

3.39

Таблица 6.5. Вклад всех переменных в решение на обучающем, тестовом множествах и на всех данных

Чтобы оценить вклад переменных, мы вычисляли вьгход сети с оптимальным вектором весов с помощью пакета Microsoft Excel, версия 4. Затем про каждую переменную по очереди мы временно полагали, что ее значение неизвестно и должно быть заменено на среднее арифметическое (безусловное ожидание) этих значений при постоянных исходньгх значениях остальных пяти переменных. В результате получилось 6 новых входньгх матриц. Затем мы вычислили выходы сети для всех этих матриц. Для шести полученных выходных рядов подсчитывалась RMSE и сравнивалась с RMSE исходной входной матрицы. Идея была в том, что для переменной, которая активно влияет на решение, RMSE на соответствующем выходном векторе должна быть заметно больше, чем для исходной входной матрицы.

Все вычисленные таким образом RMSE оказались больше исходной. Такое увеличение означает, что замена переменной ее безуслов-

ются ли эти переменные просто несущественными, т.е. не влияющими на выходной сигнал, или же они избыточные, т.е. могут быть представлены в виде линейной (или нелинейной) комбинации остальных?

RMSE на обучающем и тестовом множествах

REG1REG2 . .. Сеть

обучениеnj.a 0-12070.123,.... -0.1191

тестирование Ijif- ,;f0.109 -.. 0.1047

Корреляция Пялтщмежду провероадыми множссшщИ;:

VWNYРегрессия,г Сеть VWNY (,.„д. . 1

Регрессия ,,,,, .66**. 1, „

Сеть .68**.97**, „ 1



ным ожиданием ухудшает оценку целевой переменной. В случаях с временной структурой и премией за риск рост RMSE был самым большим (соответственно, 83% и 22% на проверочном множестве). Вспомните, что эти две переменные по результатам регрессионного анализа на всех подинтервалах также были оценены как имеющие сильное влияние. Далее, вьывилось такое любопытное обстоятельство: переменные, которые по результатам регрессионного ана/шза были квалифицированы как неактивные, на самом деле, влияют на решение. Непредвиденная инфляция и месячная продукция имеют определенную «объясняющую роль» и не могут быть заменены комбинациями других входньгх переменных.

Различия между сетью и OLS-регрессией становятся разительными, когда в данных присутствуют нелинейности, которые можно уловить с помощью сигмоидальной функции преобразования. Вигенд [275] ввел следующую меру улучшения результата за счет функции активации по сравнению с OLS:

дисперсия остатков (нелинейная модель)

дисперсия остатков (линейная модель)

Ее значение всегда лежит в интервале от О до 1, поскольку от того, что сеть при обучении улавливает содержащиеся в данньгх нелинейности, погрешность может только уменьшиться. Значения этого отношения для обучающего и проверочного множеств оказались равны, соответственно, 0.94 и 0.92, и это говорит о том, что либо сеть плохо использует свои нелинейные возможности, либо нелинейностей в данных просто нет. Мы подозреваем второе, потому что база данных строилась с помощью линейных моделей, для того чтобы выделить взаимно не коррелирующие экономические факторы. Большим значением данного отношения объясняется то обстоятельство, что обученная сеть лишь незначительно превосходит OLS-per-рессию по критерию RMSE. Однако остается фактом то, что нейронные сети превосходят OLS-регрессию даже при работе с такими данными, в которых нелинейные связи между входами и целевой переменной выражены слабо.

СРАВНЕНИЕ ИНДИВИДУАЛЬНОГО

И СИСТЕМАТИЧЕСКОГО ВКЛАДА ПЕРЕМЕННЫХ

Достаточно широко распространено мнение, что нейронные сети не дают ничего для понимания пользователем сути проблемы и, в отличие от регрессионного анализа, который выдает ряд статистик по каждой переменной, остаются «черным ящиком». В этой связи в данном разделе мы приводим результаты исследования факторов, влияющих на решение, которое принимает сеть. В идеале следовало

бы вьыснить значимость либо незначимость отдельного вклада каждой из переменньгх и предоставить лицу, принимающему решение, возможность самому разбивать переменные по категориям в соответствии с их поведением во времени при различных обстоятельствах.

Представим себе, например, переменную, которая влияет на выход (доход по индексу курсов акций) только на одной из фаз делового цикла (скажем, при понижении конъюнктуры рынка, но не при подъеме, или же наоборот). Общий (усредненный) ее вклад может быть незначительным, и OLS-регрессия, скорее всего, квалифицирует эту переменную как несущественную. Теперь представим себе, что некоторая переменная активна во всех фазах цикла, но в разные фазы действует в разньгх направлениях (например, переменная, усиливающая тенденцию рынка и на его подъеме, и на спаде). Такое типично нелинейное поведение может остаться совершенно незамеченным OLS-регрессией, но MBPN-сеть, скорее всего, его уловит. Далее, предположим, что переменная активна во всех фазах делового цикла и действует в том же направлений, что и движется рынок (например, увеличивает доходы во время роста активности на рынке и уменьшает их при понижении рынка). Вероятно, и сеть, и регрессия скажут, что эта переменная значима. Итак, классификация переменных в соответствии с их вкладом (поведением) во времени может пролить свет на механизмы происхождения дохода от акций.

Коль скоро OLS-регрессия не всегда способна уловить все имеющиеся функциональные связи между независимыми и зависимыми переменными, нужно искать другие пути к пониманию поведения переменных. Мы расскажем здесь о двух интуитивных эвристических подходах. В первом из них важность переменной оценивается путем сравнения погрешности прогноза, полученного при исходной входной матрице, с погрешностью, которая получится, если значения всех переменных заменить на их средние значения. Во втором эвристическом методе вклад отдельной переменной оценивается по степени надежности выхода сети (decisiveness). Метод работает «наперед» (ех ante), не обращаясь к реальным значениям целевой переменной или погрешности. Его недостаток состоит в том, что переменные могут быть классифицированы в соответствии с тем, поддерживают или противоречат ли они вьщаваемому решению, а это решение на самом деле может быть неправильным.

Анализ поведения переменных,

на основе величины погрешности л- • <>.

Изучив отклонения выхода сети от целевой переменной (VWNY) для шести различных входньгх матриц, описанных выше, можно еде-



Дата

HIT/MISS

UI(t)

DEI(f)

URP(0

UTS(0

M?{t+l)

YP(f+12)

840131

-100

840229

-100

840330

73 j

840430

-100

840531

-100

-23 . 1

840629

-100

-87 i j -48 .

840731

-100

840831

81 \

840928

-100

841031

-100

-62 1

841130

-100

841231

850131

850228

-100

850329

-100

850430

-100

850531

-100

850628

-100

850731

-100

850830

-100

850930

-100

851031

851129

851231

-100

Таблица 6.6. Вклад отдельных переменных в погрешность (промасштабирован на интервал [-100,100]) за период 1984-85 гг.

В столбце, обозначенном HIT/MISS, приведены отклонения от целевого значения того прогноза, который 6-3-1 сеть сделала по исходной входной матрице. Погрешность всюду была промасштабирова-на так, чтобы значения располагались от -100 до 100, при этом положительный знак соответствует превышению цели, а отрицательный- недобору. Малые по абсолютной величине числа означают точный прогноз (например, апрель 1984), а большие- значительную ошибку (август 1984). Если абсолютная величина ошибки велика, скажем, больше 40, то в этом случае определить вклад отдельной переменной затруднительно. Следующие 6 столбцов таблицы содержат отклонения выхода сети от целевого значения, соответствующие шести описанным выше входным матрицам. Здесь погрешности также промасштабированы и лежат от -100 до 100. По этим данным

уже можно судить о динамике отдельных переменных. Можно заметить, что во всех случаях величина погрешности чувствительна к изменениям значений переменньгх, и это говорит о том, что все переменные активны. В целом, по-видимому, наибольшие погрешности связаны с переменными временной структуры и премии за риск. Замена истинных значений этих переменных их средними значениями дает относительно большую ошибку прогноза. Это замечание согласуется с результатами регрессии, согласно которым обе переменные являлись высокозначимыми. Если теперь мы обратим внимание на знак погрешности, то увидим здесь для этих переменных противоположную зависимость. Большие отрицательные погрешности для одной переменной, как правило, совпадают с большими положительными для другой, и это может указывать на то, что их вклады в погрешность в некоторой степени компенсируют друг друга. Поскольку все переменные прошли проверку на допустимость, мульти-коллинеарность может быть исключена (см. [115]). Что касается переменных, которые по результатам регрессии были отнесены к незначимым, - например, непредвиденная инфляция, - то они, в основном, менее активны и редко дают абсолютные значения 100. Несмотря на то, что такие переменные, как показывает регрессионный анализ, в среднем мало влияют на результат, в некоторых ситуациях они могут быть очень активными. Поскольку такая маргинальная активность не улавливается регрессией, исследование чувствительности погрешности к изменениям этих якобы малозначимых переменных может продвинуть нас в понимании того, какое влияние глобальные факторы оказывают на рынок акций.

Анализ влияния переменных, основанный \ на решающем правиле классификации

Теперь мы рассмотрим другой метод решения задачи, который основан на решающем критерии классификации. Этот критерий заложен в разработанный Хехт-Нильсеном программный пакет KnowledgeNet для MBPN-сетей, предназначенный для принятия одного или нескольких бинарных решений.

Бинарный выходной узел сети выдает один из двух сигналов - TRUE или FALSE (ИСТИНА или ЛОЖЬ). Такая схема, скорее, может быть использована в сети, предназначенной для классификации периодических доходов, а не для прогнозирования. Каждому классу доходов соответствует один выходной узел. Мы вьвделили 4 класса доходов по индексу: О- очень низкий (т.е. сильно отрицательный), 1 - умеренно низкий, 2 - умеренно высокий, 3 - сильно положительный. Границы классов были установлены так, чтобы во все классы попадало примерно поровну случаев. Для описания четырех клас-

лать определенные выводы об относительных изменениях влияний отдельных переменных.

[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [ 24 ] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42]