使用 Python 进行机器学习 - 生态系统


Python 简介

Python是一种流行的面向对象编程语言,具有高级编程语言的功能。其易于学习的语法和可移植性使其如今很受欢迎。以下事实向我们介绍了 Python -

  • Python 是由荷兰 Stichting Mathematisch Centrum 的 Guido van Rossum 开发的。

  • 它是作为名为“ABC”的编程语言的继承者而编写的。

  • 它的第一个版本于 1991 年发布。

  • Python 这个名字是 Guido van Rossum 在电视节目 Monty Python's Flying Circus 中挑选的。

  • 它是一种开源编程语言,这意味着我们可以免费下载它并使用它来开发程序。可以从www.python.org下载。

  • Python编程语言兼具Java和C的特点。它拥有优雅的“C”代码,另一方面,它拥有像 Java 一样的类和对象,用于面向对象编程。

  • 它是一种解释性语言,这意味着Python程序的源代码将首先转换为字节码,然后由Python虚拟机执行。

Python 的优点和缺点

每种编程语言都有一些优点和缺点,Python 也是如此。

优势

根据研究和调查,Python 是第五大最重要的语言,也是机器学习和数据科学领域最流行的语言。这是因为 Python 具有以下优势 -

易于学习和理解- Python 的语法更简单;因此,即使对于初学者来说,学习和理解该语言也相对容易。

多用途语言- Python 是一种多用途编程语言,因为它支持结构化编程、面向对象编程以及函数式编程。

大量的模块- Python 拥有大量的模块,涵盖了编程的各个方面。这些模块易于使用,因此使 Python 成为一种可扩展的语言。

开源社区的支持- 作为开源编程语言,Python 得到了非常大的开发者社区的支持。因此,Python 社区很容易修复这些错误。这个特性使得Python非常健壮和适应性强。

可扩展性- Python 是一种可扩展的编程语言,因为它提供了比 shell 脚本更好的结构来支持大型程序。

弱点

尽管Python是一种流行且功能强大的编程语言,但它也有执行速度慢的弱点。

由于Python是解释性语言,因此与编译语言相比,Python的执行速度较慢。这可能是 Python 社区需要改进的主要领域。

安装Python

为了使用Python,我们首先必须安装它。您可以通过以下两种方式之一执行Python的安装 -

  • 单独安装Python

  • 使用预打包的 Python 发行版 - Anaconda

让我们详细讨论这些内容。

单独安装Python

如果你想在你的计算机上安装Python,那么你只需要下载适用于你的平台的二进制代码。Python 发行版可用于 Windows、Linux 和 Mac 平台。

以下是在上述平台上安装 Python 的快速概述 -

在 Unix 和 Linux 平台上

借助以下步骤,我们可以在 Unix 和 Linux 平台上安装 Python -

  • 首先,访问www.python.org/downloads/

  • 接下来,单击链接下载适用于 Unix/Linux 的压缩源代码。

  • 现在,下载并解压文件。

  • 接下来,如果我们想自定义一些选项,我们可以编辑 Modules/Setup 文件。

    • 接下来,编写命令运行./configure脚本

    • 制作

    • 进行安装

在Windows平台上

借助以下步骤,我们可以在 Windows 平台上安装 Python -

  • 首先,访问www.python.org/downloads/

  • 接下来,单击 Windows 安装程序 python-XYZ.msi 文件的链接。这里 XYZ 是我们要安装的版本。

  • 现在,我们必须运行下载的文件。它将带我们进入Python安装向导,该向导很容易使用。现在,接受默认设置并等待安装完成。

在 Macintosh 平台上

对于 Mac OS X、Homebrew,建议使用一个出色且易于使用的软件包安装程序来安装 Python 3。如果您没有 Homebrew,您可以使用以下命令来安装它 -

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

可以使用以下命令更新它 -

$ brew update

现在,要在您的系统上安装 Python3,我们需要运行以下命令 -

$ brew install python3

使用预打包的 Python 发行版:Anaconda

Anaconda 是 Python 的打包编译,其中包含数据科学中广泛使用的所有库。我们可以按照以下步骤使用 Anaconda 设置 Python 环境 -

  • 步骤 1 - 首先,我们需要从 Anaconda 发行版下载所需的安装包。其链接是www.anaconda.com/distribution/。您可以根据需要选择 Windows、Mac 和 Linux 操作系统。

  • 步骤 2 - 接下来,选择要在计算机上安装的 Python 版本。最新的Python版本是3.7。在那里您将获得 64 位和 32 位图形安装程序的选项。

  • 步骤 3 - 选择操作系统和 Python 版本后,它将在您的计算机上下载 Anaconda 安装程序。现在,双击该文件,安装程序将安装 Anaconda 软件包。

  • 步骤 4 - 要检查它是否已安装,请打开命令提示符并输入 Python,如下所示 -

Python 发行版

您还可以在www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp上查看详细的视频讲座。

为什么选择 Python 来进行数据科学?

Python 是第五大最重要的语言,也是机器学习和数据科学领域最流行的语言。以下是 Python 的特性,使其成为数据科学语言的首选 -

广泛的套件

Python 拥有一组广泛而强大的软件包,可用于各个领域。它还具有机器学习和数据科学所需的numpy、scipy、pandas、scikit-learn等软件包。

轻松制作原型

Python 成为数据科学语言选择的另一个重要特性是简单快速的原型设计。此功能对于开发新算法很有用。

协作功能

数据科学领域基本上需要良好的协作,而 Python 提供了许多有用的工具,使这一点变得非常重要。

一种语言适用于多个领域

典型的数据科学项目包括数据提取、数据操作、数据分析、特征提取、建模、评估、部署和更新解决方案等各个领域。由于 Python 是一种多用途语言,它允许数据科学家从一个通用平台解决所有这些领域的问题。

Python ML 生态系统的组成部分

在本节中,我们将讨论构成 Python 机器学习生态系统组件的一些核心数据科学库。这些有用的组件使 Python 成为数据科学的重要语言。尽管有很多这样的组件,但让我们在这里讨论 Python 生态系统的一些重要组件 -

Jupyter笔记本

Jupyter Notebook 基本上提供了一个交互式计算环境,用于开发基于 Python 的数据科学应用程序。它们以前称为 ipython 笔记本。以下是 Jupyter Notebook 的一些功能,使其成为 Python ML 生态系统的最佳组件之一 -

  • Jupyter Notebook 可以通过逐步排列代码、图像、文本、输出等内容来逐步说明分析过程。

  • 它可以帮助数据科学家在开发分析过程时记录思维过程。

  • 人们还可以将结果捕获为笔记本的一部分。

  • 在 Jupyter Notebook 的帮助下,我们还可以与同行分享我们的工作。

安装与执行

如果您使用 Anaconda 发行版,则无需单独安装 jupyter Notebook,因为它已经随其一起安装。您只需转到 Anaconda Prompt 并输入以下命令 -

C:\>jupyter notebook

按 Enter 后,它将在您计算机的 localhost:8888 处启动笔记本服务器。如以下屏幕截图所示 -

Jupyter笔记本

现在,单击“新建”选项卡后,您将获得一个选项列表。选择Python 3,它将带您进入新笔记本并开始在其中工作。您将在以下屏幕截图中看到它 -

Python表

搜索栏

另一方面,如果您使用标准 Python 发行版,则可以使用流行的 python 包安装程序 pip 来安装 jupyter Notebook。

pip install jupyter

Jupyter Notebook 中的单元格类型

以下是 jupyter 笔记本中的三种类型的单元 -

代码单元- 顾名思义,我们可以使用这些单元来编写代码。编写代码/内容后,它将发送到与笔记本关联的内核。

Markdown 单元格- 我们可以使用这些单元格来注释计算过程。它们可以包含文本、图像、Latex 方程、HTML 标签等内容。

原始单元格- 其中写入的文本按原样显示。这些单元格基本上用于添加我们不希望被jupyter笔记本的自动转换机制转换的文本。

有关jupyter Notebook的更详细学习,可以访问链接www.tutorialspoint.com/jupyter/index.htm

数值模拟

它是另一个有用的组件,使 Python 成为数据科学最喜欢的语言之一。它基本上代表 Numerical Python,由多维数组对象组成。通过使用 NumPy,我们可以执行以下重要操作 -

  • 数组的数学和逻辑运算。

  • 傅里叶变换

  • 与线性代数相关的运算。

我们还可以将 NumPy 视为 MatLab 的替代品,因为 NumPy 主要与 Scipy(科学 Python)和 Mat-plotlib(绘图库)一起使用。

安装与执行

如果您使用 Anaconda 发行版,则无需单独安装 NumPy,因为它已经随 NumPy 一起安装。您只需借助以下命令将包导入到您的 Python 脚本中:

import numpy as np

另一方面,如果您使用标准 Python 发行版,则可以使用流行的 python 包安装程序 pip 安装 NumPy。

pip install NumPy

有关 NumPy 的更详细学习,可以访问链接www.tutorialspoint.com/numpy/index.htm

pandas

它是另一个有用的 Python 库,使 Python 成为数据科学最喜欢的语言之一。Pandas 基本上用于数据操作、整理和分析。它是由 Wes McKinney 于 2008 年开发的。在 Pandas 的帮助下,在数据处理中我们可以完成以下五个步骤 -

  • 加载
  • 准备
  • 操纵
  • 模型
  • 分析

Pandas 中的数据表示

Pandas 中数据的整个表示是在以下三种数据结构的帮助下完成的 -

Series - 它基本上是一个带有轴标签的一维 ndarray,这意味着它就像一个具有同质数据的简单数组。例如,下面的级数是整数1,5,10,15,24,25...的集合

1 5 10 15 24 25 28 36 40 89

数据框架- 它是最有用的数据结构,用于 pandas 中几乎所有类型的数据表示和操作。它基本上是一个可以包含异构数据的二维数据结构。通常,表格数据使用数据框来表示。例如,下表显示了学生的姓名、学号、年龄和性别的数据 -

姓名 卷数 年龄 性别
阿拉夫 1 15 男性
哈希特 2 14 男性
卡尼卡 3 16 女性
玛雅克 4 15 男性

面板- 它是一个包含异构数据的 3 维数据结构。用图形化的方式来表示面板是非常困难的,但是可以将其表示为DataFrame的容器。

下表给出了 Pandas 中使用的上述数据结构的维度和描述 -

数据结构 方面 描述
系列 一维 大小不可变的一维同质数据
数据框 二维 大小可变,表格形式的异构数据
控制板 3-D 大小可变数组,DataFrame 的容器。

我们可以将这些数据结构理解为高维数据结构是低维数据结构的容器。

安装与执行

如果您使用 Anaconda 发行版,则无需单独安装 Pandas,因为它已经随其一起安装。您只需借助以下命令将包导入到您的 Python 脚本中:

import pandas as pd

另一方面,如果您使用标准 Python 发行版,则可以使用流行的 python 包安装程序 pip 安装 Pandas。

pip install Pandas

安装 Pandas 后,您可以像上面那样将其导入到 Python 脚本中。

例子

以下是使用 Pandas 从 ndarray 创建系列的示例 -

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: data = np.array(['g','a','u','r','a','v'])

In [4]: s = pd.Series(data)

In [5]: print (s)

0 g
1 a
2 u
3 r
4 a
5 v

dtype: object

有关 Pandas 的更详细研究,您可以访问链接www.tutorialspoint.com/python_pandas/index.htm

Scikit-learn

用于 Python 数据科学和机器学习的另一个有用且最重要的 Python 库是 Scikit-learn。以下是 Scikit-learn 的一些功能,使其非常有用 -

  • 它基于 NumPy、SciPy 和 Matplotlib 构建。

  • 它是开源的,可以在 BSD 许可下重复使用。

  • 每个人都可以访问它,并且可以在各种情况下重复使用。

  • 可以在它的帮助下实现涵盖机器学习主要领域的广泛机器学习算法,如分类、聚类、回归、降维、模型选择等。

安装与执行

如果您使用 Anaconda 发行版,则无需单独安装 Scikit-learn,因为它已经随它一起安装了。您只需将该包使用到您的 Python 脚本中即可。例如,通过以下脚本行,我们从Scikit-learn导入乳腺癌患者的数据集-

from sklearn.datasets import load_breast_cancer

另一方面,如果您使用标准 Python 发行版并拥有 NumPy 和 SciPy,则可以使用流行的 python 包安装程序 pip 安装 Scikit-learn。

pip install -U scikit-learn

安装 Scikit-learn 后,您可以将其使用到您的 Python 脚本中,就像上面所做的那样。