назад Оглавление вперед


[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [ 17 ] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42]


17

Тип сети

MSE при обучении

MSE при проверке

Число эпох

Число весов

NBIC

13-2-1

0.021

0.063

-0.231

13-3-1

0.019

0.066

0.9639

13-4-1

0.016

0.07

2.0338

13-5-1

0.019

0.065

3.4808

13-10-1

0.026

0.063

10.154

13-27-1

0.021

0.055

31.477

Таблица 4.1. Сводка результатов для сетей различной конфигурации

Для определения наилучшего размера сети мы пользовались известным правилом для временных рядов, которое называется байесовским информационным критерием (BIC). В случае, когда две модели давали одинаковое качество результатов, предпочтение отдавалось более простой из них, т.е. имеющей меньшее число параметров. Де Гроот и Вуртц [83] предложили модифицированный нормализованный В1С под названием NB1C в виде

NBIC = In

(Цел.перем. - Прогноз) N

,2 Л

где k = l,2,...,N, N- число наблюдений в обучающем множестве р - число весов.

Первое слагаемое представляет собой логарифм среднеквадратичной ошибки на обучающем .множестве. Второе слагаемое зависит от числа степеней свободы и растет линейно с ростом размера сети. Критерий действует так: сеть, имеющая наименьшее значение NBIC, обладает наилучшими способностями к прогнозу и обобщению. Видно, что из всех испробованных конфигураций наилучшей оказалась сеть 13-2-1.

При относительно простой конфигурации эта сеть имеет 44 потенциальных степени свободы при том, что в обучающем множестве имеются 45 наблюдений. Чтобы смягчить это несоответствие, мы убрали несколько переменных, сильно коррелированньгх либо с Миль-онен-нотой (V2), либо с потреблением (V5). Таким образом были исключены следующие переменные:

совокупные вложения в ценные бумаги с фиксированным доходом (V7),

уровень безработицы (V8), индекс курсов акций CBS (V9), предложение денег (V10).

0.07

0.06

0.05

0.04

0.03

0.02

0.01

500 1000 1500 2000 2500 5000 7500 10000 12500 Число циклов (округленно)

Обучение

Тестирование

Рис. 4.1. MSE на обучающем и проверочном множествах

В результате получилась архитектура 9-2-1 с 32 параметрами, для которьгх была проделана повторная оценка. На диаграмме показана

ве, не являются максимально выверенными в смысле проверки на дополнительньгх примерах.

В итоге была выбрана модель сети MBPN (13-2-1) с одним скрытым слоем, содержащим два элемента, и прямыми связями между входом и выходом. Коэффициент обучения был взят равным 0.8, а крутизна- равной 1. Далее мы приводим данные по среднеквадратичной ошибке на обучающем и тестовом множествах для различ-ньгх конфигураций.

Для некоторьгх конфигураций количество весов явно превосходило число входньгх данньгх (наблюдений). Хотя недостаток степеней свободы делает оценку сомнительной, мы приводим здесь результаты работы 13-27-1 модели, чтобы проиллюстрировать доказанную Колмогоровым в 1957 г. и популяризованную Хехт-Нильсеном [137] теорему о существовании отображения. Эта теорема утверждает, что любая непрерывная функция может быть реализована трехслойной нейронной сетью, имеющей во входном слое m (в нашем случае 13) элементов, промасштабированньгх на [0,1], (2т-1-1) элементов-процессоров в единственном скрытом слое и п элементов в вьгходном слое. Таким образом, гарантируется, что иерархическая многослойная нейронная сеть может решить любую нелинейно отделимую задачу и может точно реализовать любое отображение т-мерньгх входньгх векторов в «-мерные выходные. При этом теорема ничего не говорит нам ни о возможности реализовать отображение посредством сети меньших размеров, ни о том, что для этого подойдут обычно используемые сигмоидные преобразования.



MSE на обучающем и проверочном множествах. Оптимальная длительность обучения составляет примерно 7500 циклов. При дальнейшем увеличении числа эпох в обучении MSE на проверочном множестве начинала медленно расти.

По сравнению с 13-2-1 сетью значения MSE и на обучающем, и на проверочном множествах получаются чуть-чуть лучше. Перед тем, как делать выводы собственно о структуре сети, разумно сравнить ее результаты с такими классическими методами, как многомерная регрессия или модель ARIMA (собственной разработки MoF).

Наряду с таким хорошим критерием успеха, как MSE, можно пользоваться также так называемой средней относительной дисперсией ARV (см. [275]):

(Цел.перем. - Прогноз) (Цел.перем. - Среднее)

где N- число наблюдений, Среднее - среднее значение целевого

ряда, - дисперсия целевого ряда.

Нормировка MSE устраняет зависимость от динамического разброса данных и учитывает волатильность внутри базы данных. Оценка качества работы сети будет дана в сравнении с результатами регрессии и модели ARIMA. Оба этих метода будут вкратце изложены. Регрессионная модель была построена с использованием только 45 наблюдений из обучающего множества:

RECEIPT, =а + Ро CAL,+pi ANNUAL, н-р SEA,

H-PaDAY+pCON, 3 + Р5 AIBOR,+ р, CYC,

+ P7 RAIN,Ч-Рв ТЕМ,+ e,.(3)

Одна из переменных - ANNUAL, помесячная раскладка годового прогноза правительства, имеет здесь особетпю большое значение. Это неудивительно, поскольку MoF рассматривает эту зависимую переменную как цель и старается приблизить значение целевой переменной (RECEIPT) к правительственпо.му прогнозу (это - пример так называемого условного прогнозирования). Число рабочих дней (DAY), календарные эффекты (CAL) и сезонность (SEA) также играют существенную роль. Погода (RAIN,TEM), ожидаемая процентная ставка (AIBOR) и потребление (CON) существегпгого влияния па решение не оказывают.

Значение статистического показателя Дарбина-Уотсопа указывает на наличие отрицательной корреляции разностей ряда. Поэтому было бы разумно перейти к разностям первого порядка или преобразовать регрессионную модель к такому виду, когда применима процедура OLS (например, итерационный процесс Кокрапа-Оркутта). Од-

нако, поскольку MoF больше заинтересовано в прогнозировании уровня, а не тренда, разности тут плохо подходят. Обычный регрессионный OLS-анализ в применении к прогнозу ежемесячных налоговых сборов дал неудовлетворительные результаты. Поэтому MoF решило применить одномерный метод Бокса-Дженкинса. Получившаяся в результате модель ARIMA(0,0,0)(0,l,l)i2 с параметрами, определенными из того же самого обучающего множества данных, имеет следующий вид:

(l-BiJlnz, =0.04367 + (l-0.751Bi2)a,.(4)

Здесь В - оператор сдвига назад, а а - составляющая опшбки.

Дисперсионный анализ

Сумма квадратов

Средний квадрат

Регрессия

.85000

.09444

Разность

.79126

.02261

F=4.17758

Значимость F

=.0010

Переменная

Beta

SigT

RAIN

-.023820

.110330

-.028191

-.216

.8303

.152681

.104093

.206986

1.467

.1514

AIBOR

-.064621

.153774

-.058243

-.420

.6769

-.222539

.239240

-.277351

-.930

.3586

.111763

.079241

.213171

1.410

.1672

.111333

.100348

.157154

1.109

.2748

.081578

.092620

.128230

.881

.3844

.188244

.126605

.246653

1.487

.1460

ANNUAL

.349709

.173124

.575489

2.020

.0511

(КОНСТАНТА)

.060655

.125002

.485

.6305

Значение теста Дарбина-Уотсона = 2.94431

Таблица 4.2. Сводные результаты регрессионного анализа

Сравнительные характеристики всех трех методов видны из сопоставления соответствуюпгих значений ARV (средней относительной дисперсии):

Обучение Проверка

Регрессия

0.4821 0.8972

ARIMA

4.621 3.845

Сеть

0.3165 0.7049



Тестовое множество

J i-

План

Сеть ----ARIMA ............... Регрессия

Рис. 4.2. Общая сумма налогов: оценки и действительность

И регрессия, и сеть имеют лучшие характеристики, чем ARIMA. Причина этого в том, что ARIMA является одномерной моделью, где в принципе не могут учитываться календарные эффекты или число рабочих дней. Совокупное действие этих эффектов, начиная с сентября 1991 г., вызывает колебания уровня поступлений налогов от месяца к месяцу и внутри месяцев. Далее, сеть дает более точную оценку, чем регрессия. Причина может быть связана с присутствующей в данных нелинейностью. Значения -отношения Вигенда! 0.705 и 0.743, соответственно, для обучающего и тестового множеств также свидетельствуют о наличии (возможно, слабьгх) нелинейных связей.

Коль скоро сеть имеет лучшие характеристики, чем модель ARIMA и регрессия, попробуем разобраться в ее внутренней структуре и рассмотрим вклад каждой из девяти фазовых переменных.

ВКЛАД КАЖДОЙ ИЗ ПЕРЕМЕННЫХ ПО ОТДЕЛЬНОСТИ

Структура сети отражается в весах, которые имеют связи, идущие от входных переменных к выходным. Тем самым, величина веса говорит о степени важности данной переменной. Однако до сих пор не разработано никакого систематического способа количественной оценки вклада отдельного веса в вьгход сети, аналогичного, например, доверительным интервалам в регрессионном анализе. Мы пред-

PEOUT

BIAS

-0.76

-0.34

-0.63

1.26

0.11

0.85

ANNUAL

-1.24

-0.30

0.15

0.01

-0.31

; 0.42

0.76

-0.28

0.73

-1.03

-0.11

-0.76

AIBOR

-0.39

-0.30

. -0.29

-0.27

-0.39

0.08

0.36

0.04

0.35

RAIN

-0.44

-0.11

1 -0.30

-1.56

0.09

Таблица 4.3. Матрица весов для 9-2-1 сети

»

Анализ одного отдельно взятого веса не вьывляет существа дела, поскольку при этом не учитывается пороговый уровень. Далее, большой вес не обязательно приводит к насыщению сигмоида, так как соответствующие значения входа могут быть очень маленькими. Из матрицы весов 9-2-1 модели с непосредственными связями между входами и выходами видно, что связь между вторым скрытым нейроном (РЕ2) и вьгходным элементом (PEOUT) имеет очень малый вес. Однако 9-1-1 сеть уже не способна давать выход того же качества (в смысле коэффициента ARV).

Связи, ведущие от потребления, числа рабочих дней и календарньгх эффектов к первому скрытому элементу, имеют большие веса (соответственно, -1.03, 0.76 и 1.26). Отрицательные веса непосредственных соединений процентной ставки и дождя с вьгходным элементом (РЕОиТ) представляются правдоподобными, тогда как влияние потребления на результат неожиданно происходит с обратным знаком. Правительственный прогноз (ANNUAL) имеет ожидаемый знак в прямой связи с вьгходом, хотя по результатам регрессии можно было предположить, что абсолютная величина веса будет гораздо больше. Связь со скрытыми элементами имеет отрицательный знак, но, поскольку связь РЕ1 с РЕОиТ также отрицательна, итоговое косвенное влияние этой переменной вполне может оказаться положительным.

Рассмотрение отдельных весов вне связи с другими весами ничего не прибавляет к нашему пониманию того, какой в целом вклад вносит в конечный результат та или иная переменная. Различные наборы входных значений будут по-разному преобразовываться систе-

лагаем анализировать вклады отдельных весов в конечный результат с помощью эвристических методов.

[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [ 17 ] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42]