& В этом современном виде теорема Байеса была на самом деле сформулирована Лапласом. Томасу Байесу принадлежит сама постановка задачи. Он сформулировал ее как обратную известной задаче Бернулли. Если Бернулли искал вероятность различных исходов бросания "кривой" монеты, то Байес, наоборот, стремился определить степень этой "кривизны" по эмпирически наблюдаемым исходам бросания монеты. В его решении отсутствовала априорная вероятность.
Наилучшая модель определяется максимизацией P{n\d) или ее логарифма, что дает один и
тот же результат в силу монотонности логарифмической функции. Логарифмы удобны тем, что произведение вероятностей независимых событий они переводят в сумму их логарифмов:
maxlogP(iVlZ)) = max{logP(Z)iV) + logP(iV)}.(1)
(Знаменатель не зависит от модели и не влияет на выбор лучшей.)
Выписанная выше формула является базовой для понимания основ обучения нейросетей, т.к. она задает критерий оптимальности обучения, к которому надо стремиться. Мы еще неоднократно вернемся к ней на протяжении этой главы. Обсудим, прежде всего значение обоих членов в правой части полученного выражения.
Принцип максимального правдоподобия (maximum liltelihood)
Заметим, прежде всего, что второй член в правой части выражения (1) не зависит от данных. Первый же, отражающий эмпирический опыт, как правило, имеет вид колокола тем более узкого, чем больше объем имеющихся в распоряжении данных (см. Рисунок 4).
Обозначим весь набор имеющихся данных d, а гипотезы, объясняющие эти данные (в нашем случае - нейросети), как . Предполагается, что каждая такая гипотеза объясняет данные с
большей или меньшей степенью вероятности P{d\n). Теорема Байеса дает решение
обратной задачи - определить степень достоверности гипотез Р(Л/£)), исходя из их успехов в объяснении данных. Согласно этой теореме, достоверность гипотезы пропорциональна ее успеху, а также ее априорной вероятности, P{n), известной из других соображений, не относящихся к данной серии наблюдений:

Рисунок 4. Качественная зависимость априорной и эмпирической составляющих формулы Байеса. Чем больше данных - тем точнее можно выбрать проверяемую гипотезу
Действительно, чем больше данных - тем точнее может быть проверены следствия конкурирующих гипотез, и, следовательно, тем точнее будет выбор наилучшей.
Следовательно, при стремлении количества данных к бесконечности, последним членом можно пренебречь. Это приближение:
maxlog P[n\d) min{- log P(d\N)
получило название принципа максимального правдоподобия (Фишер) и характерно для т.н. параметрической статистики, в которой модель представляет собой семейство решений с небольшим и фиксированным набором параметров.
Отрицательный логарифм вероятности имеет смьюл эмпирической ошибки при подгонке данных с помощью имеющихся в моделе свободных параметорв.
Например, в задаче аппроксимации функций обычно предполагается, что данные порождаются некоторой неизвестной функцией, которую и надо восстановить, но их "истинные" значения искажены случайным гауссовым шумом. Таким образом, условная вероятность набора данных
х",у" для модели y(x",w), зависящей от настраиваемых параметров w, имеет
гауссово распределение:
P(D\N) = YlP{y"\N),
P(y"\N) ос схр\-[у" - y(x",N)f/2a
Отрицательный логарифм, таким образом, пропорционален сумме квадратов, и аппроксиация функции сводится к минимизации среднеквадратичной ошибки:
minj- InP[d\n)} miJ (3;" - y(x",N)J >.
Согласно этому принципу следует минимизировать общую длину описания данных с помощью модели и описания самой модели. Чтобы увидеть это перепишем формулу (1) в виде:
гшп {-log P(Z)iV) - log P(iV)} = min{ описание ошибки + описание модели}
Первый член, как мы убедились, есть эмпирическая ошибка. Чем она меньше - тем меньше бит потребуется для исправления предсказаний модели. Если модель предсказывает все данные точно, длина описания ошибки равна нулю. Второй член имеет смьюл количества информации, необходимого для выбора конкретной модели из множества с априорным распределением вероятностей P{N).
Очень сильный результат теории индуктивного вывода, принадлежащий Рисанену, ограничивает ожидаемую ошибку модели на новых данных степенью сжатия информации с помощью этой модели. Чем меньше описанная выше суммарная длина описания, тем надежнее предсказания такой модели.
Этот вывод пригодится нам позднее - для выбора оптимального размера нейросетей. Пока же предположим, что цель обучения сформулирована - имеется подлежащий минимизации
функционал ошибки E(yv) = Ех" ,у",ух",уу, зависящий от всех настроечных весов
нейросети. Наша ближайшая задача - понять каким образом можно найти значения этих весов, минимизируещие такой функционал.
Градиентное обучение многослойных персептронов
Градиентное обучение
Наиболее общим способом оптимизации нейросети является итерационная (постепенная) процедура подбора весов, называемая обучением, в данном случае - обучением с учителем,
поскольку опирается на обучающую выборку примеров х",у", например - примеров
правильной классификации.
Принцип минимальной длины описания (minimum description length)
В случае нейросетевого моделирования число параметров как правило велико, более того, размер сети как правило соотносится с объемом обучающей выборки, т.е. число параметров зависит от числа данных. В принципе, как отмечалось далее, взяв достаточно большую нейросеть, можно приблизить имеющиеся данные со сколь угодно большой точностью. Между тем, зачастую это не то, что нам надо. Например, правильная аппроксимация зашумленной функции по определению должна давать ошибку - порядка дисперсии шума.
Учет второго члена формулы (1) позволяет наложить необходимые ограничения на сложность модели, подавляя, например, излишнее количество настроечных параметров. Смьюл совместной оптимизации эмпирической ошибки и сложности модели дает принцип минимальной длины описания.