"Многие исследователи нейронных сетей являются инженерами, физиками, нейрофизиологами, психологами или специалистами по компьютерам, которые мало знают о статистике и нелинейной оптимизации. Исследователи нейронных сетей постоянно лереоткрывают методы, которые известны в математической и статистической литературе десятилетиями и столетиями, но часто оказываются неспособными понять как работают эти методы"
Подобная точка зрения, на первый взгляд, может показаться обоснованной. Формализм нейронных сетей действительно способен претендовать на роль универсального языка. Не случайно уже в пионерской работе МакКаллока и Питтса было показано, что нейросетевое описание эквивалентно описанию логики вьюказываний.
"Я в действительности обнаружил, что с помощью с помощью техники, которую я разработал в работе1961 года (...), я мог бы легко ответить на все вопросы, которые мне задают специалисты ло мозгу (...) или компьютерщики. Как физик, однако, я хорошо знал, что теория, которая объясняет все, на самом деле не объясняет ничего: в лучшем случае она является языко!. Эдуардо Каянелло
Не удивительно поэтому, что статистики часто обнаруживают, что привычные им понятия имеют свои аналоги в теории нейронных сетей. Уоррен Сэрл составил небольшой словарик терминов, использующихся в этих двух областях.
Таблица 1. Словарь аналогичных терминов
Нейронные сети | Статистические методы. |
Признаки | переменные |
входы | независимые переменные |
выходы | предсказанные значения |
целевые значения | зависимые переменные |
ошибка | невязка |
обучение, адаптация, самоорганизация | оценка |
функция ошибки, функция Ляпунова | критерий оценки |
обучающие образы (пары) | наблюдения |
параметры сети: веса, пороги. | Оценочные параметры |
нейроны высокого порядка | взаимодействия |
польззуется новым языком для описания старого знания. В качестве примера приведем цитату из Уоррена Сэрла:
функциональные связи | трансформации |
обучение с учителем или гетероассоциация | регрессия и дискриминантный анализ |
обучение без учителя или автоассоциация | сжатие данных |
соревновательное обучение, адаптивная векторная квантизация | кластерный анализ |
обобщение | интерполяция и экстраполяция |
В чем различие нейронных сетей и статистики?
В чем же заключается сходство и различие языков нейрокомпьютинга и статистики в анализе данных. Рассмотрим простейший пример.
Предположим, что мы провели наблюдения и экспериментально измерили Л пар точек,
представляющих функциональную зависимость у{х): [{х,y),...{Xfj,yj). Если
попытаться провести через эти точки наилучшую прямую, что на языке статистики будет означать использование для описания неизвестной зависимости линейной модели
у = ах + Ь + £,
(где £ обозначает шум при проведении наблюдения), то решение соответствующей проблемы линейной регрессии сведется к нахождению оценочных значений параметров &,В, минимизирующих сумму квадратичных невязок.
t,[y,-{ax,+b)f.
Если параметры £(\л В найдены, то можно оценить значение j для любого значения х, то есть осуществить интерполяцию и экстраполяцию данных.
Та же самая задача может быть решена с использованием однослойной сети с единственным входным и единственным линейным выходным нейроном. Вес связи а и порог b могут быть получены путем минимизации той же величины невязки (которая в данном случае будет называться среднеквадратичной ошибкой) в ходе обучения сети, например методом backpropagation. Свойство нейронной сети к о6о6ш,ению будет при этом использоваться для предсказания выходной величины по значению входа.
Рисунок 1. Линейная регрессия и реализующий ее однослойный персептрон.
При сравнении этих двух подходов сразу бросается в глаза то, что при описании своих методов статистика апеллирует к формулам и уравнениям, а нейрокомпьютинг к графическому описанию нейронных архитектур.
£У Если вспомнить, что с формулами и уравнениями оперирует левое полушарие, а с графическими образами правое, то можно понять, что в сопоставлении со статистикой вновь проявляется правополушарность" нейросетевого подхода.
Еще одним существенным различием является то, что для методов статистики не имеет значения, каким образом будет минимизироваться невязка - в любом случае модель остается той же самой, в то время как для нейрокомпьютинга главную роль играет именно метод обучения. Иными словами, в отличие от нейросетевого подхода, оценка параметров модели для статистических методов не зависит от метода минимизации. В то же время статистики будут рассматривать изменения вида невязки, скажем на
как фундаментальное изменение модели.
В отличие от нейросетевого подхода, в котором основное время забирает обучение сетей, при статистическом подходе это время тратится на тщательный анализ задачи. При этом опыт статистиков используется для выбора модели на основе анализа данных и информации, специфичной для данной области. Использование нейронных сетей - этих универсальных аппроксиматоров - обычно проводится без использования априорных знаний, хотя в ряде случаев оно весьма полезно. Например, для рассматриваемой линейной модели использование именно среднеквадратичной ошибки ведет к получению оптимальной оценки ее параметров, когда величина шума s имеет нормальное распределение с одинаковой дисперсией для всех обучающих пар. В то же время если известно, что эти дисперсии различны, то использование взвешенной функции ошибки
Y,c,[yk-(k+b)f