数据结构简介


Pandas 处理以下三种数据结构 -

  • 系列
  • 数据框
  • 控制板

这些数据结构构建在 Numpy 数组之上,这意味着它们速度很快。

尺寸及描述

考虑这些数据结构的最佳方式是,高维数据结构是其低维数据​​结构的容器。例如DataFrame是Series的容器,Panel是DataFrame的容器。

数据结构 方面 描述
系列 1 一维标记同质数组,大小不可变。
数据框 2 一般二维标记、尺寸可变的表格结构,具有潜在的异构类型列。
控制板 3 通用 3D 标记、大小可变数组。

构建和处理二维或多维数组是一项繁琐的任务,用户在编写函数时需要考虑数据集的方向。但使用 Pandas 数据结构,可以减少用户的脑力劳动。

例如,对于表格数据 (DataFrame),考虑索引(行)和而不是轴 0 和轴 1 在语义上更有帮助。

可变性

所有 Pandas 数据结构的值都是可变的(可以更改),除了 Series 之外,所有数据结构的大小都是可变的。系列的大小是不可变的。

注意- DataFrame 被广泛使用,并且是最重要的数据结构之一。面板的使用量要少得多。

系列

系列是具有同质数据的一维数组状结构。例如,以下系列是整数 10、23、56、... 的集合

10 23 56 17 号 52 61 73 90 26 72

关键点

  • 数据同质
  • 大小不可变
  • 数据可变的值

数据框

DataFrame是一个具有异构数据的二维数组。例如,

姓名 年龄 性别 评分
史蒂夫 32 男性 3.45
利亚 28 女性 4.6
文号 45 男性 3.9
凯蒂 38 女性 2.78

该表表示组织销售团队的数据及其总体绩效评级。数据以行和列表示。每列代表一个属性,每行代表一个人。

列的数据类型

四列的数据类型如下 -

柱子 类型
姓名 细绳
年龄 整数
性别 细绳
评分 漂浮

关键点

  • 异构数据
  • 尺寸可变
  • 数据可变

控制板

面板是一种数据异构的三维数据结构。很难用图形表示来表示面板。但面板可以被说明为 DataFrame 的容器。

关键点

  • 异构数据
  • 尺寸可变
  • 数据可变