Математическая основа логистической регрессии



страница7/17
Дата02.06.2016
Размер0.75 Mb.
ТипЛекции
1   2   3   4   5   6   7   8   9   10   ...   17

Математическая основа логистической регрессии


Итак, как уже было сказано, в логит регрессионной модели предсказанные значения зависимой переменной или переменной отклика не могут быть меньше (или равными) 0, или больше (или равными) 1, не зависимо от значений независимых переменных; поэтому, эта модель часто используется для анализа бинарных зависимых переменных или переменных отклика. 

При этом используется следующее уравнение регреcсии (термин логит был впервые использован Berkson, 1944):



y=exp(b0+b1*x1+...+bn*xn)/[1+exp(b0+b1*x1+...+bn*xn)]

Легко увидеть, что независимо от регрессионных коэффициентов или величин х, предсказанные значения (у) в этой модели всегда будут лежать в диапазоне от 0 до 1. 

Термин логит произошел от того, что эту модель легко линеаризовать с помощью логит преобразования. Предположим, что бинарная зависимая переменная y является непрерывной вероятностью p, лежащей в диапазоне от 0 до 1. Тогда можно преобразовать эту вероятность p следующим образом:

p' = loge {p/(1-p)}

Это преобразование называется логит или логистическим преобразованием. 

Заметим, что p' теоретически может принимать любые значения от минус до плюс бесконечности. Поскольку логит преобразование решает проблему 0/1 границ для исходной зависимой переменной (вероятности), то можно использовать эти (логит преобразованные) значения в обычном линейном уравнении регресии.

Фактически, при проведении логит преобразования обеих частей логит регрессионного уравнения, приведенного выше, мы получим стандартную линейную модель множественной регрессии:



p' = b0+ b1*x1+ b2*x2+ ... + bn*xn

Подобное уравнение нам уже знакомо. Решив его, мы получим значения регрессионных коэффициентов, по которым затем можно восстановить вероятность р.


Особенности логит регрессии 


Однако, применение логистического преобразования к уравнению логит регрессии порождает определенные проблемы. 

При решении задачи линейной регрессии мы подгоняли к наблюдаемым значениям некоторую гиперповерхность - прямую в случае простой регрессии, плоскость - в случае двух независимых переменных. Также мы требуем нормальность и некоррелированность ошибок. 

При переходе к уравнению логит регрессии подгоняемая поверхность уже не будет иметь такой простой вид. Также, нас не спасет уже и нормальность ошибок. 

Все это делает невозможным использования методов оценивания, применяемых для линейных задач. 

Например, в случае одной независимой переменной для простой регрессии применялся известный метод наименьших квадратов. В случае простой логит регрессии такой метод уже неприменим. Неприменимыми являются и подобные методы для решения задач с большим числом предикторов. 

Поэтому для решения задач логит регрессии используется только метод максимального правдоподобия. Вкратце, процесс оценки регрессионных коэффициентов сводится к максимизации вероятности появления конкретной выборки (при заданных наблюдаемых значениях). Это приводит к часто невысокому проценту корректной классификации. Логит регрессия также слабо устойчива к излишней подгонке.



Множественная логистическая регрессия.

В общем виде рассматривают множественную логистическую регрессию для описания дискретной зависимой переменной с конечным числом (2 и более)  значений. Множественная логистическая регрессия представляет дискретную переменную Y, имеющую G (G ≥ 2) значений {Y1, Y2,…,YG} через набор из р независимых переменных X1, X2, …, Xp. Заметим, что при применении логистической регрессии не предполагается какое-либо упорядочение значений зависимой переменной, Y используется как номинальная переменная. Одно из ее значений используется для определения базовой или референтной группы, а все остальные выступают равноправно как метки опытных или исследуемых групп. Разница между множественной логистической регрессией и логистической регрессией для бинарного отклика – чисто техническая, определяемая числом групп G. Однако в тех случаях, когда исследователь может выбирать между применением  нескольких бинарных и полиномиальной зависимой переменной, следует остановить свой выбор именно на бинарных переменных, поскольку интерпретация полученных результатов будет проще. В частности, независимые переменные, необходимые для описания одной группы, могут оказаться излишними при описании другой. А при использовании множественной логистической регрессии они все должны быть включены в уравнения.

Обозначим набор независимых переменных Х = (Х1, Х2, … , Хр), а набор соответствующих всем значениям зависимой переменной параметров β обозначим

http://www.statistica-help.ru/pic5/image013.png

Если для бинарной зависимой переменной логистическая модель задается одним уравнением, то в общем случае для этого требуется G-1 уравнение - по количеству значений зависимой переменной минус 1 – из-за использования одной из групп, обычно первой, в качестве референтной. Необходимость референтной группы связана с тем, что логистическая модель описывает не вероятности, а отношения вероятностей принадлежности к группам:



http://www.statistica-help.ru/pic5/image015.png                 (5.6)

pg – это вероятность того, что наблюдение, для которого независимые переменные имеют значения X1, X2, …, Xp, относится к группе g, т.е. зависимая переменная Y принимает значение Yg

pg = Prob(Y = Yg | X)

Обычно в модель включено пересечение, или свободный член, но это не обязательно. Величины Р1, Р2, … , РG  - это априорные вероятности групп.

Референтной (reference) называется первая по порядку группа в уравнениях. Выбор референтной группы произвольный, но осмысленный. Обычно это наибольшая группа или контрольная группа, с которой сравниваются все остальные группы.

ij} – это множество регрессионных коэффициентов (неизвестных), которые требуется оценить по имеющимся данным. Эти оценки обозначаются {bij}.

Оценки максимального правдоподобия параметров {βij} получаются с помощью нахождения точки экстремума логарифма отношения правдоподобия. Формулы приведены в Приложении. Там же описаны основные статистики, применяемые для оценки результатов применения логистической регрессии.


Каталог: files
files -> Методические рекомендации «Организация исследовательской деятельности учащихся»
files -> Актуальность исследования
files -> Рабочая программа дисциплины
files -> Программа курса предназначена для учащихся 9-11 класса и рассчитана на 128 часов. Периодичность занятий 1 раз в неделю по 4 учебных часа
files -> Предоставление максимально широкого поля возможностей учащимся, ориентированным на высокий уровень образования и воспитания, с учетом их индивидуальных потребностей
files -> Методические рекомендации по организации исследовательской и проектной деятельности младших школьников
files -> Программы
files -> Выпускных квалификационных работ


Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   10   ...   17


База данных защищена авторским правом ©psihdocs.ru 2017
обратиться к администрации

    Главная страница