Python Pandas - 快速指南

Python Pandas - 简介

Pandas 是一个开源 Python 库，利用其强大的数据结构提供高性能的数据操作和分析工具。Pandas 这个名字来源于“面板数据”这个词——来自多维数据的计量经济学。

2008 年，当需要高性能、灵活的数据分析工具时，开发人员 Wes McKinney 开始开发 pandas。

在 Pandas 之前，Python 主要用于数据处理和准备。它对数据分析的贡献很小。pandas解决了这个问题。使用 Pandas，我们可以完成数据处理和分析的五个典型步骤，无论数据来源如何——加载、准备、操作、建模和分析。

Python with Pandas 广泛应用于学术和商业领域，包括金融、经济、统计、分析等。

pandas的主要特征

快速高效的 DataFrame 对象，具有默认和自定义索引。
用于将数据从不同文件格式加载到内存中数据对象的工具。
数据对齐和缺失数据的综合处理。
日期集的重塑和旋转。
大型数据集基于标签的切片、索引和子集化。
可以删除或插入数据结构中的列。
按数据分组以进行聚合和转换。
高性能数据合并和连接。
时间序列功能。

Python Pandas - 环境设置

标准 Python 发行版不与 Pandas 模块捆绑在一起。一个轻量级的替代方案是使用流行的 Python 包安装程序pip 安装 NumPy。

pip install pandas

如果您安装 Anaconda Python 包，Pandas 将默认安装，并包含以下内容 -

Windows

Anaconda（来自https://www.continuum.io）是 SciPy 堆栈的免费 Python 发行版。它还适用于 Linux 和 Mac。
Canopy ( https://www.enthought.com/products/canopy/ ) 既可以免费提供，也可以作为商业发行版提供，具有适用于 Windows、Linux 和 Mac 的完整 SciPy 堆栈。
Python (x,y) 是一个免费的 Python 发行版，带有适用于 Windows 操作系统的 SciPy 堆栈和 Spyder IDE。（可从http://python-xy.github.io/下载）

Linux

各个 Linux 发行版的包管理器用于在 SciPy 堆栈中安装一个或多个包。

对于 Ubuntu 用户

sudo apt-get install python-numpy python-scipy python-matplotlibipythonipythonnotebook
python-pandas python-sympy python-nose

对于 Fedora 用户

sudo yum install numpyscipy python-matplotlibipython python-pandas sympy
python-nose atlas-devel

数据结构简介

Pandas 处理以下三种数据结构 -

系列
数据框
控制板

这些数据结构构建在 Numpy 数组之上，这意味着它们速度很快。

尺寸及描述

考虑这些数据结构的最佳方式是，高维数据结构是其低维数据结构的容器。例如DataFrame是Series的容器，Panel是DataFrame的容器。

数据结构	方面	描述
系列	1	一维标记同质数组，大小不可变。
数据框	2	一般二维标记、尺寸可变的表格结构，具有潜在的异构类型列。
控制板	3	通用 3D 标记、大小可变数组。

构建和处理二维或多维数组是一项繁琐的任务，用户在编写函数时需要考虑数据集的方向。但使用 Pandas 数据结构，可以减少用户的脑力劳动。

例如，对于表格数据 (DataFrame)，考虑索引（行）和列而不是轴 0 和轴 1 在语义上更有帮助。

可变性

所有 Pandas 数据结构的值都是可变的（可以更改），除了 Series 之外，所有数据结构的大小都是可变的。系列的大小是不可变的。

注意- DataFrame 被广泛使用，并且是最重要的数据结构之一。面板的使用量要少得多。

系列

系列是具有同质数据的一维数组状结构。例如，以下系列是整数 10、23、56、... 的集合

17 号

关键点

数据同质
大小不可变
数据可变的值

数据框

DataFrame是一个具有异构数据的二维数组。例如，

姓名	年龄	性别	评分
史蒂夫	32	男性	3.45
利亚	28	女性	4.6
文号	45	男性	3.9
凯蒂	38	女性	2.78

该表表示组织销售团队的数据及其总体绩效评级。数据以行和列表示。每列代表一个属性，每行代表一个人。

列的数据类型

四列的数据类型如下 -

柱子	类型
姓名	细绳
年龄	整数
性别	细绳
评分	漂浮

关键点

异构数据
尺寸可变
数据可变

控制板

面板是一种数据异构的三维数据结构。很难用图形表示来表示面板。但面板可以被说明为 DataFrame 的容器。

关键点

异构数据
尺寸可变
数据可变

Python pandas - 系列

Series 是一个一维标记数组，能够保存任何类型的数据（整数、字符串、浮点数、Python 对象等）。轴标签统称为索引。

pandas系列

可以使用以下构造函数创建 pandas 系列 -

pandas.Series( data, index, dtype, copy)

构造函数的参数如下 -

先生编号	参数及说明
1	数据数据有多种形式，如 ndarray、列表、常量
2	指数索引值必须是唯一的且可散列的，并且与数据的长度相同。如果没有传递索引，则默认np.arange(n) 。
3	数据类型 dtype 是数据类型。如果没有，将推断数据类型
4	复制复制数据。默认 False

可以使用各种输入创建一个系列，例如 -

大批
词典
标量值或常数

创建一个空系列

可以创建的基本系列是空系列。

先生编号	参数及说明
1	数据数据有多种形式，如 ndarray、series、map、lists、dict、constants 以及另一个 DataFrame。
2	指数对于行标签，如果没有传递索引，则用于结果帧的索引是可选默认值 np.arange(n) 。
3	列对于列标签，可选的默认语法是 - np.arange(n)。仅当未传递索引时才如此。
4	数据类型每列的数据类型。
5	复制如果默认值为 False，则此命令（或其他任何命令）用于复制数据。

范围	描述
数据	数据采用多种形式，例如 ndarray、series、map、lists、dict、constants 以及另一个 DataFrame
项目	轴=0
长轴	轴=1
短轴	轴=2
数据类型	每列的数据类型
复制	复制数据。默认，假

先生。	属性或方法及描述
1	轴返回行轴标签的列表
2	数据类型返回对象的数据类型。
3	空的如果系列为空，则返回 True。
4	恩迪姆根据定义 1，返回基础数据的维数。
5	尺寸返回基础数据中的元素数量。
6	价值观以 ndarray 形式返回系列。
7	头（）返回前 n 行。
8	尾巴（）返回最后 n 行。

先生。	属性或方法及描述
1	时间转置行和列。
2	轴返回一个列表，其中行轴标签和列轴标签作为唯一的成员。
3	数据类型返回此对象中的数据类型。
4	空的如果 NDFrame 完全为空 [无项目]，则为 True；如果任何轴的长度为 0。
5	恩迪姆轴数/数组维度。
6	形状返回表示 DataFrame 维度的元组。
7	尺寸 NDFrame 中的元素数量。
8	价值观 NDFrame 的 Numpy 表示。
9	头（）返回前 n 行。
10	尾巴（）返回最后 n 行。

Python Pandas - 快速指南

Python Pandas - 简介

pandas的主要特征

Python Pandas - 环境设置

Windows

Linux

数据结构简介

尺寸及描述

可变性

系列

关键点

数据框

列的数据类型

关键点

控制板

关键点

Python pandas - 系列

pandas系列

创建一个空系列

例子

从 ndarray 创建一个系列

实施例1

实施例2

从 dict 创建一个系列

实施例1

实施例2

从标量创建系列

访问带有位置的系列数据

实施例1

实施例2

实施例3

使用标签（索引）检索数据

实施例1

实施例2

实施例3

Python Pandas - 数据帧

数据框的特点

结构

pandas.DataFrame

创建数据框

创建一个空数据框

例子

从列表创建数据框

实施例1

实施例2

实施例3

从 ndarrays / 列表的字典创建 DataFrame

实施例1

实施例2

从字典列表创建数据框

实施例1

实施例2

实施例3

从系列字典创建数据框

例子

色谱柱选择

例子

列添加

例子

列删除

例子

行选择、添加和删除

按标签选择

按整数位置选择

切片行

添加行

删除行

Python Pandas - 面板

pandas.Panel()

创建面板

来自 3D ndarray

来自 DataFrame 对象的字典

创建一个空面板

从面板中选择数据

使用物品

使用major_axis

使用minor_axis

Python Pandas - 基本功能

系列基本功能

例子