Равномерному заполнению ячеек соответствует максимальная энтропия - наибольший разброс возможных значений переменной.
Рисунок 13. Смысл энтропии - эффективное число заполненных данными
ячеек
Предсказуемость случайного вектора Y, обеспечиваемое знанием другой случайной величины X, дается кросс-энтропией:
/(Y,X) = H{y) + Я(Х) - Я(Х, Y) = H{y) - H{y\K)
Качественно, кросс-энтропия равна логарифму отношения типичного разброса значений переменной Y к типичному разбросу этой переменной, но при известном значении переменной X (см. Рисунок 14):
/(Y,X) = log-
Рисунок 14. Иллюстрация к понятию кросс-энтропии: Nj - полное число ячеек в объединенном пространстве X® Y, Л- число проекций ячеек
на пространство X, Nj/Nj - характерный разброс по оси Y при фиксированном X, Л,, - характерный разброс всех данных по оси Y.
Чем больше кросс-энтропия, тем больше определенности вносит знание значения X в предсказание значения переменной Y.
Описанный выше энтропийный анализ не использует никаких предположений о характере зависимости между входными и выходными переменными. Таким образом, данная методика дает наиболее общий рецепт определения значимости входов, позволяя также оценивать степень предсказуемости выходов.
В принципе, качество предсказаний и, соответственно, значимость входной информации определяется, в конечном итоге, в результате обучения нейросети, которая, к тому же, дает решение в явном виде. Однако, как мы знаем, обучение нейросети - довольно сложная
вычислительная задача (требующая ~ операций). Между тем, существуют эффективные алгоритмы бьютрого подсчета кросс-энтропии (с вычислительной сложностью -PlogP),
намного более экономные, чем обучение нейросетей. Значение методики box-counting состоит в том, что не находя самого решения, она позволяет быстро предсказать качество этого прогноза. Поэтому эта методика может быть положена в основу предварительного отбора входной информации на этапе предобработки данных.
Формирование оптимального пространства признаков
В типичной ситуации набор выходных, прогнозируемых, переменных фиксирован, и требуется подобрать наилучшую комбинацию ограниченного числа входных величин. Оценка значимости входов позволяет построить процедуру систематического предварительного подбора входных переменных - до этапа обучения нейросети. Для иллюстрации опишем две возможные стратеги автоматического формирования признакого пространства.
Последовательное добавление наиболее значимых входов
Один из наиболее очевидных способов формирования пространства признаков с учетом реальной значимости входов - постепенный подбор наиболее значимых входов в качестве очередных признаков. В качестве первого признака выбирается вход с наибольшей индивидуальной значимостью:
. i=argmax{/(y,X,)}.
Вторым признаком становится вход, обеспечивающий наибольшую предсказуемость в паре с уже выбранным:
A:2=argmax{/(y,X, X,)},
и так далее. На каждом следующем этапе добавляется вход, наиболее значимый в компании с выбранными ранее входами:
К = argmax{i?W = /(y,X, ...Х, X,)} .
Такая процедура не гарантирует нахождения наилучшей комбинации входов, т.е. дает субоптимальный набор признаков, т.к. реально рассматривается лишь очень малая доля от полного числа комбинаций входов, и значимость каждого нового признака зависит от сделанного прежде выбора. Полный перебор, однако, практически неосуществим: выбор
оптимальной комбинации п входов при полном их числе
требует перебора
\ п J
комбинаций.
Другим недостатком описанного выше подхода является необходимость подсчета кросс-энтропии в пространстве все более высокой размерности по мере увеличения числа отобранных признаков. Ниже описана процедура, свободная от этого недостатка, основанная на применении методики box-counting лишь в низкоразмерных пространствах (а именно - с размерностью dj + \)-
Формирование признакого пространства методом ортогонализации
Следующая систематическая процедура способна итеративно выделять наиболее значимые
признаки, являющиеся линейными комбинациями входных переменных: X = W-X (подмножество входов является частным случаем линейной комбинации, т.е. формально можно найти лучшее решение, чем то, что доступно путем отбора наиболее значимых комбинаций входов).

Рисунок 15. Выбор наиболее значимых линейных комбинаций входных переменных.
Для определения значимости каждой входной компоненты будем использовать каждый раз индивидуальную значимость этого входа: /(Y,X.).
Подсчитав индивидуальную значимость входов, находим направление в исходном входном пространстве, отвечающее наибольшей (нелинейной) чувствительности выходов к изменению входов. Это градиентное направление определит первый вектор весов, дающий первую компоненту пространства признаков:
w,, = l(Y,X,).
Следующую компоненту будем искать аналогично первой, но уже в пространстве перпендикулярном выбранному направлению, для чего спроектируем все входные вектора в это пространство:
y6t, eTia+iT, ёмГбмёпп. Амайа аТаТбу, а TienuaaaiTi аёаТбёоМ пёааТааёТ ай ёпмёидТааби побТаТа Tiaaaaeaiea gia-iiTnoe Ш абТаа: т? = /(у, Х) - /(Y, X \ Х), TaiaeT уоТ iTaaaQoiaaaao laTaaaaiea box-counting а айпТёТбадМбт laTnoaainoaa, +ааТ Ю
eaeaageoToeieoaaaeaou.