Python 中的逻辑回归 - 分割数据

我们大约有四万一千多条记录。如果我们使用全部数据来构建模型，我们将不会留下任何数据用于测试。所以一般来说，我们将整个数据集分成两部分，比如 70/30 的百分比。我们使用 70% 的数据进行模型构建，其余数据用于测试所创建模型的预测准确性。您可以根据您的要求使用不同的分光比。

创建特征数组

在分割数据之前，我们将数据分成两个数组 X 和 Y。X 数组包含我们要分析的所有特征（数据列），Y 数组是布尔值的一维数组，它是的预测。为了理解这一点，让我们运行一些代码。

首先，执行以下 Python 语句来创建 X 数组 -

In [17]: X = data.iloc[:,1:]

要检查X的内容，请使用head打印一些初始记录。以下屏幕显示 X 数组的内容。

In [18]: X.head ()

该阵列有几行和 23 列。

接下来，我们将创建包含“ y ”值的输出数组。

要为预测值列创建数组，请使用以下 Python 语句 -

In [19]: Y = data.iloc[:,0]

通过调用head检查其内容。下面的屏幕输出显示了结果 -

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

现在，使用以下命令分割数据 -

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

这将创建名为X_train、Y_train、X_test 和 Y_test的四个数组。和以前一样，您可以使用 head 命令检查这些数组的内容。我们将使用 X_train 和 Y_train 数组来训练我们的模型，并使用 X_test 和 Y_test 数组来测试和验证。