Математическая основа логистической регрессии
Итак, как уже было сказано, в логит регрессионной модели предсказанные значения зависимой переменной или переменной отклика не могут быть меньше (или равными) 0, или больше (или равными) 1, не зависимо от значений независимых переменных; поэтому, эта модель часто используется для анализа бинарных зависимых переменных или переменных отклика.
При этом используется следующее уравнение регреcсии (термин логит был впервые использован Berkson, 1944):
y=exp(b0+b1*x1+...+bn*xn)/[1+exp(b0+b1*x1+...+bn*xn)]
Легко увидеть, что независимо от регрессионных коэффициентов или величин х, предсказанные значения (у) в этой модели всегда будут лежать в диапазоне от 0 до 1.
Термин логит произошел от того, что эту модель легко линеаризовать с помощью логит преобразования. Предположим, что бинарная зависимая переменная y является непрерывной вероятностью p, лежащей в диапазоне от 0 до 1. Тогда можно преобразовать эту вероятность p следующим образом:
p' = loge {p/(1-p)}
Это преобразование называется логит или логистическим преобразованием.
Заметим, что p' теоретически может принимать любые значения от минус до плюс бесконечности. Поскольку логит преобразование решает проблему 0/1 границ для исходной зависимой переменной (вероятности), то можно использовать эти (логит преобразованные) значения в обычном линейном уравнении регресии.
Фактически, при проведении логит преобразования обеих частей логит регрессионного уравнения, приведенного выше, мы получим стандартную линейную модель множественной регрессии:
p' = b0+ b1*x1+ b2*x2+ ... + bn*xn
Подобное уравнение нам уже знакомо. Решив его, мы получим значения регрессионных коэффициентов, по которым затем можно восстановить вероятность р.
Особенности логит регрессии
Однако, применение логистического преобразования к уравнению логит регрессии порождает определенные проблемы.
При решении задачи линейной регрессии мы подгоняли к наблюдаемым значениям некоторую гиперповерхность - прямую в случае простой регрессии, плоскость - в случае двух независимых переменных. Также мы требуем нормальность и некоррелированность ошибок.
При переходе к уравнению логит регрессии подгоняемая поверхность уже не будет иметь такой простой вид. Также, нас не спасет уже и нормальность ошибок.
Все это делает невозможным использования методов оценивания, применяемых для линейных задач.
Например, в случае одной независимой переменной для простой регрессии применялся известный метод наименьших квадратов. В случае простой логит регрессии такой метод уже неприменим. Неприменимыми являются и подобные методы для решения задач с большим числом предикторов.
Поэтому для решения задач логит регрессии используется только метод максимального правдоподобия. Вкратце, процесс оценки регрессионных коэффициентов сводится к максимизации вероятности появления конкретной выборки (при заданных наблюдаемых значениях). Это приводит к часто невысокому проценту корректной классификации. Логит регрессия также слабо устойчива к излишней подгонке.
Множественная логистическая регрессия.
В общем виде рассматривают множественную логистическую регрессию для описания дискретной зависимой переменной с конечным числом (2 и более) значений. Множественная логистическая регрессия представляет дискретную переменную Y, имеющую G (G ≥ 2) значений {Y1, Y2,…,YG} через набор из р независимых переменных X1, X2, …, Xp. Заметим, что при применении логистической регрессии не предполагается какое-либо упорядочение значений зависимой переменной, Y используется как номинальная переменная. Одно из ее значений используется для определения базовой или референтной группы, а все остальные выступают равноправно как метки опытных или исследуемых групп. Разница между множественной логистической регрессией и логистической регрессией для бинарного отклика – чисто техническая, определяемая числом групп G. Однако в тех случаях, когда исследователь может выбирать между применением нескольких бинарных и полиномиальной зависимой переменной, следует остановить свой выбор именно на бинарных переменных, поскольку интерпретация полученных результатов будет проще. В частности, независимые переменные, необходимые для описания одной группы, могут оказаться излишними при описании другой. А при использовании множественной логистической регрессии они все должны быть включены в уравнения.
Обозначим набор независимых переменных Х = (Х1, Х2, … , Хр), а набор соответствующих всем значениям зависимой переменной параметров β обозначим
Если для бинарной зависимой переменной логистическая модель задается одним уравнением, то в общем случае для этого требуется G-1 уравнение - по количеству значений зависимой переменной минус 1 – из-за использования одной из групп, обычно первой, в качестве референтной. Необходимость референтной группы связана с тем, что логистическая модель описывает не вероятности, а отношения вероятностей принадлежности к группам:
(5.6)
pg – это вероятность того, что наблюдение, для которого независимые переменные имеют значения X1, X2, …, Xp, относится к группе g, т.е. зависимая переменная Y принимает значение Yg
pg = Prob(Y = Yg | X)
Обычно в модель включено пересечение, или свободный член, но это не обязательно. Величины Р1, Р2, … , РG - это априорные вероятности групп.
Референтной (reference) называется первая по порядку группа в уравнениях. Выбор референтной группы произвольный, но осмысленный. Обычно это наибольшая группа или контрольная группа, с которой сравниваются все остальные группы.
{βij} – это множество регрессионных коэффициентов (неизвестных), которые требуется оценить по имеющимся данным. Эти оценки обозначаются {bij}.
Оценки максимального правдоподобия параметров {βij} получаются с помощью нахождения точки экстремума логарифма отношения правдоподобия. Формулы приведены в Приложении. Там же описаны основные статистики, применяемые для оценки результатов применения логистической регрессии.
Кластерный анализ Будущее непохоже на прошлое. Алгоритм k-средних. Сравнение методов. Аддитивный и мультипликативный тренд-цикл.
Поделитесь с Вашими друзьями: |