分类算法 - 逻辑回归


逻辑回归简介

逻辑回归是一种监督学习分类算法,用于预测目标变量的概率。目标或因变量的性质是二分的,这意味着只有两个可能的类别。

简而言之,因变量本质上是二进制的,数据编码为 1(代表成功/是)或 0(代表失败/否)。

从数学上讲,逻辑回归模型将 P(Y=1) 预测为 X 的函数。它是最简单的 ML 算法之一,可用于各种分类问题,例如垃圾邮件检测、糖尿病预测、癌症检测等。

逻辑回归的类型

一般来说,逻辑回归是指具有二元目标变量的二元逻辑回归,但它可以预测另外两类目标变量。根据类别数量,逻辑回归可以分为以下类型 -

二元或二项式

在这种分类中,因变量只有两种可能的类型:1和0。例如,这些变量可以代表成功或失败、是或否、赢或输等。

多项式

在这种分类中,因变量可以有3种或更多种可能的无序类型或没有定量意义的类型。例如,这些变量可以表示“A型”或“B型”或“C型”。

序数

在这种分类中,因变量可以有3种或更多种可能的有序类型或具有定量意义的类型。例如,这些变量可以表示“差”或“好”、“非常好”、“优秀”,并且每个类别可以具有诸如0、1、2、3之类的分数。

逻辑回归假设

在深入实施逻辑回归之前,我们必须了解以下相同的假设 -

  • 在二元逻辑回归的情况下,目标变量必须始终是二元的,并且期望的结果由因子水平 1 表示。

  • 模型中不应存在多重共线性,即自变量必须相互独立。

  • 我们必须在模型中包含有意义的变量。

  • 我们应该选择较大的样本量进行逻辑回归。

二元Logistic回归模型

最简单的逻辑回归形式是二元或二项式逻辑回归,其中目标变量或因变量只能有 1 或 0 2 种可能的类型。它允许我们对多个预测变量和二元/二项式目标变量之间的关系进行建模。在逻辑回归的情况下,线性函数基本上用作另一个函数的输入,例如