-
Линейный регрессионный выход как вероятности
Заманчиво использовать линейный выход регрессии как вероятности, но это ошибка, потому что выход может быть отрицательным и больше 1, тогда как вероятность не может. Поскольку регрессия может фактически создавать вероятности, которые могут быть меньше 0 или даже больше 1, была введена логистическая регрессия.
Источник: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
-
результат
В линейной регрессии результат (зависимая переменная) является непрерывным. Он может иметь любое из бесконечного числа возможных значений.
В логистической регрессии результат (зависимая переменная) имеет только ограниченное число возможных значений.
-
Зависимая переменная
Логистическая регрессия используется, когда переменная ответа является категоричной по своей природе. Например, да / нет, true / false, красный / зеленый / синий, 1-й / 2-й / 3-й / 4-й и т. Д.
Линейная регрессия используется, когда переменная ответа непрерывна. Например, вес, высота, количество часов и т. Д.
-
Уравнение
Линейная регрессия дает уравнение, которое имеет вид Y = mX + C, означает уравнение со степенью 1.
Однако логистическая регрессия дает уравнение, которое имеет вид Y = e X + e -X
-
Коэффициент интерпретации
В линейной регрессии интерпретация коэффициентов независимых переменных довольно проста (т. Е. Удерживая все остальные переменные постоянными, с увеличением единицы в этой переменной, ожидается, что зависимая переменная будет увеличиваться / уменьшаться на ххх).
Однако в логистической регрессии зависит от семейства (биномиальный, пуассоновский и т. Д.) И ссылки (log, logit, inverse-log и т. Д.), Которые вы используете, интерпретация различна.
-
Техника минимизации ошибок
Линейная регрессия использует обычный метод наименьших квадратов для минимизации ошибок и достижения наилучшего соответствия, в то время как логистическая регрессия использует метод максимального правдоподобия для достижения решения.
Линейную регрессию обычно решают путем минимизации ошибки наименьших квадратов модели к данным, поэтому большие ошибки наказываются квадратично.
Логистическая регрессия - это как раз наоборот. Использование функции логистической потери приводит к тому, что большие ошибки наказываются асимптотически постоянной.
Рассмотрим линейную регрессию по категориальным результатам {0, 1}, чтобы понять, почему это проблема. Если ваша модель прогнозирует, что результат равен 38, когда истина равна 1, вы ничего не потеряли. Линейная регрессия попыталась бы уменьшить это 38, логистика не будет (столько же) 2 .