Сечения
Главный вопрос теперь - как выбирать эти обобщенные координаты. Можно, например, воспользоваться сечениями имеющихся многомерных данных, иными словами - просто выбрать два "наиболее важных" с точки зрения экспертов параметра балансов и таким образом отобразить на двумерной карте положение всех фирм. Для российских банков подобное представление информации практикует журнал "Эксперт" (см Рисунок 2).
ей н
> Инко]убанк
Альфа-банк
* Сбербанк
Нац. резерв
Внештопг
Токомбс нк
} /[осбизнес
Собственный/Привлеченный
Рисунок 2. Положение пятнадцати крупнейших российских банков в 1996 г. в координатах "Надежность" - Доходность. (По материалам журнала
"Эксперт")
Согласно такому подходу надежность банка характеризуется одним финансовым показателем -отношением собственного капитала к привлеченному. В первой половине этой главы мы видели, однако, что анализ банкротств выявляет как минимум пять (а то и восемь) значимых финансовых показателей, влияющих на надежность.
Линейное сжзтле информации - метод главных компонент
Более общий подход - использовать не две отдельные компоненты, а две линейные комбинации всех 30 исходных параметров, наилучшим образом представляющие имеющиеся данные (см. Рисунок 3).
порядков величин. Из зтих 30 параметров нам предстоит оптимальным образом сконструировать две обобщенные координаты.

Рисунок 3. Линейная аппроксимация многомерных (здесь - трехмерных)
данных
Каждый банк представлен точкой в 30-мерном пространстве и задача состоит в проведении двумерной плоскости в этом пространстве, обеспечивающей минимальное среднеквадратичное отклонение имеющихся точек от этой плоскости:
= mm
Как мы знаем подобное линейное приближение дается методом главных компонент. Если действительное расположение точек не сильно отклоняется от плоскости, этот метод может дать неплохое начальное приближение. Однако, оказывается, что в даном случае это не так. Среднеквадратичное отклонение для случая двух главных компонент оказалось равным почти половине от общей дисперсии: Ej = 0.47.
Таким образом, даже оптимальный вариант линейного сжатия не дает возможности визуализировать финансовое положение банков. Оно может, тем не менее, оказаться полезным, в частности, для анализа значимости балансовых статей. Так, увеличение числа главных компонент постепенно дает все лучшее и лучшее приближение имеющегося массива данных (см. Рисунок 4).

Рисунок 4. Точность воспроизведения данных I - Ej как
функция числа главных компонент.
Например, 10 главных компонент обеспечивают вполне приемлемую общую точность 94% (т.е. Ej = 0.06). При общем числе входов равном 30, это означает 3-кратное сжатие информации.
Такое сжатие оказывается возможным из-за существенных корреляций между отдельными статьями в балансовой отчетности. При этом те статьи, которые дают наибольший вклад в главные компоненты, восстанавливаются по ним с наибольшей точностью.

Рисунок 5. Значимость статей балансов и отчетов о лрибылях/убытках, олределенная ло стелени их восстановления ло 10 главных комлонентам
Нелинейное сжалле информации - 1ргы Кохонена
Итак, линейная статистическая обработка данных не способна выделить два ведущих параметра, описывающих финансовое состояние российских банков с приемлемой точностью. В этой ситуации естественно обратиться к нелинейному статистическому анализу, т.е. к нейросетевому моделированию.
Напомним, что методом, дающим оптимальное представление информации в виде координат двумерной сетки, является построение топографических карт (карт Кохонена), о которых шла речь в Главе 4. Напомним в двух словах суть этой методики. В многомерное пространство данных погружается двумерная сетка. Эта сетка изменяет свою форму таким образом, чтобы по возможности точнее аппроксимировать облако данных. Каждой точке данных ставится в соответствие ближайший к ней узел сетки. Таким образом каждая точка данных получает некоторую координату на сетке. Такое отображение локально непрерывно: близким точкам на карте соответствуют близкие точки в исходном пространстве (обратное, вообще говоря, не верно: близким точкам в исходном пространстве могут соответствовать далекие точки на карте -такова цена понижения размерности). Таким образом, распределение данных на двумерной карте позволяет судить о локальной структуре многомерных данных.
Синаптические веса нейрона в сети Кохонена являются его координатами в исходном многомерном пространстве. Обучение сети, т.е. нахождение положения узлов карты в многомерном пространстве происходит в режиме "победитель забирает все". Данные по очереди подаются на входы всех нейронов и для каждого входа определяется ближайший к нему нейрон. Обучение состоит в подгонке весов нейрона-победителя и его ближайших соседей минимизурующих отклонение данных от нейронов-победителей. Постепенно сеть находит равновесное положение, оптимально аппроксимирующее данные (см. Рисунок 6).
Степень восстановления исходных данных по ограниченному числу главных компонент свидетельствует о том, насколько согласованны данные в этих статьях между собой во всем массиве имеющейся информации, т.е. насколько содержащаяся в них информация значима для выявления индивидуальных отличий. Рисунок 5 показывает, что около 20 статей восстанавливаются по 10 главным компонентам с относительно вьюокой точностью. Это как раз те статьи, кторые дают основной вклад в главные компоненты. Остальные статьи гораздо менее значимы для сравнительного финансового анализа, в частности, в силу незначительности совокупной доли активов в этих статьях балансов.