统计 - 数据模式


以图形方式绘制数据模式时非常有用。数据模式通常用中心、分布、形状和其他不寻常属性等特征来描述。其他特殊描述性标签有对称、钟形、倾斜等。

中心

从图形上看,分布的中心位于分布的中位数。这样的图表显示,几乎一半的观察结果都在两边。每列的高度表示观察的频率。

中心数据模式

传播

分布的散布是指数据的变化。如果观察集覆盖范围较广,则分布范围较大。如果观测值以单个值为中心,则分布较小。

传播数据模式

形状

分布的形状可以使用以下特征来描述。

  • 对称性- 在对称分布中,图形可以在中心处划分,使得每一半都是另一半的镜像。

    对称
  • 峰数。- 具有一个或多个峰值的分布。具有一个清晰峰的分布称为单峰分布,具有两个清晰峰的分布称为双峰分布。中心的单峰对称分布称为钟形。

    峰数
  • 偏度- 某些分布可能在图的一侧比另一侧有多个观察值。对较低值的观察较少的分布被认为是向右倾斜的;向较低值观察较少的分布被认为是左偏的。

    偏度
  • 均匀- 当一组观测值没有峰值并且数据均匀分布在分布范围内时,该分布称为均匀分布。

    制服

不寻常的特点

数据模式的常见异常特征是间隙和异常值。

  • 间隙- 间隙指向没有观测值的分布区域。下图有一个间隙,因为分布中间没有观测值。

    差距
  • 离群值- 分布的特征可能是与其他观测数据集有很大差异的极值。这些极值被称为离群值。下图说明了带有异常值的分布。

    异常值