数据科学 - 什么是数据?
数据科学中的数据是什么?
数据是数据科学的基础。数据是计算机对指定字符、数量或符号进行运算的系统记录,可以存储和传输。它是用于特定目的(例如调查或分析)的数据的汇编。当结构化时,数据可以称为信息。数据来源(原始数据、二手数据)也是一个重要的考虑因素。
数据有多种形状和形式,但通常可以被认为是某些随机实验的结果 - 其结果无法提前确定的实验,但其工作原理仍需分析。随机实验的数据通常存储在表格或电子表格中。表示变量的统计约定通常称为特征或列,而单个项目(或单位)称为行。
数据类型
主要有两种类型的数据,它们是 -
定性数据
定性数据由无法计数、量化或简单地用数字表达的信息组成。它是从文本、音频和图片中收集的,并使用数据可视化工具进行分发,包括文字云、概念图、图形数据库、时间线和信息图表。
定性数据分析的目标是回答有关个人活动和动机的问题。收集和分析此类数据可能非常耗时。处理定性数据的研究人员或分析师被称为定性研究人员或分析师。
定性数据可以为任何部门、用户组或产品提供重要的统计数据。
定性数据的类型
定性数据主要有两种类型,它们是 -
标称数据
在统计学中,名义数据(也称为名义尺度)用于指定变量而不给出数值。它是最基本的测量秤类型。与有序数据相反,名义数据不能排序或量化。
例如,人名、头发颜色、国籍等。让我们假设一个名叫 Aby 的女孩,她的头发是棕色的,她来自美国。
名义数据可以是定性的和定量的。然而,不存在与定量标签(例如,识别号)相关的数值或链接。相反,一些定性数据类别可以用名义形式表示。这些可能由单词、字母和符号组成。个人姓名、性别和国籍是最常见的名义数据实例。
分析标称数据
使用分组方法,可以分析名义数据。可以将变量分类成组,并且可以确定每个类别的频率或百分比。数据还可以以图形方式显示,例如使用饼图。
尽管名义数据不能使用数学运算符进行处理,但仍然可以使用统计技术对其进行研究。假设检验是评估和分析数据的一种方法。
对于名义数据,可以使用卡方检验等非参数检验来检验假设。卡方检验的目的是评估所提供值的预测频率和实际频率之间是否存在统计上显着的差异。
序数数据
序数数据是统计学中的一种数据类型,其中值按自然顺序排列。关于序数数据最重要的事情之一是您无法分辨数据值之间的差异。大多数时候,数据类别的宽度与基础属性的增量不匹配。
在某些情况下,可以通过对数据值进行分组来找到区间或比率数据的特征。例如,收入范围是序数数据,而实际收入是比率数据。
序数数据不能像间隔或比率数据那样使用数学运算符进行更改。因此,中位数是确定一组有序数据的中间位置的唯一方法。
这种数据类型广泛存在于金融和经济领域。考虑一项检查各国 GDP 水平的经济研究。如果报告根据国内生产总值对各国进行排名,则排名是顺序统计数据。
分析序数数据
使用可视化工具评估序数数据是最简单的方法。例如,数据可以显示为表格,其中每一行代表一个单独的类别。此外,它们可以使用不同的图表以图形方式表示。条形图是用于显示这些类型数据的最流行的图表样式。
也可以使用复杂的统计分析方法(例如假设检验)来研究序数数据。请注意,t 检验和方差分析等参数过程不能用于这些数据集。仅非参数检验(例如 Mann-Whitney U 检验或 Wilcoxon 配对检验)可用于评估有关数据的原假设。
定性数据收集方法
以下是收集定性数据的一些方法和收集方法 -
数据记录- 利用现有的数据作为数据源是进行定性研究的最佳技术。与访问图书馆类似,您可以查阅书籍和其他参考资料以获取可用于研究的数据。
访谈- 个人访谈是获取定性研究演绎数据的最常见方法之一。面试可能是随意的,没有固定的计划。这通常就像一场对话。采访者或研究人员直接从受访者那里获取信息。
焦点小组- 焦点小组由 6 至 10 人组成,彼此交谈。主持人的工作是密切关注对话并根据焦点问题进行引导。
案例研究-案例研究是对个人或群体的深入分析,重点是发展特征与环境之间的关系。
观察- 这是一种研究人员观察物体并记下记录笔记以找出本能反应和无需提示的反应的技术。
定量数据
定量数据由数值组成,具有数值特征,可以对这类数据进行加法等数学运算。定量数据由于其定量特征,在数学上是可验证和评估的。
其数学推导的简单性使得控制不同参数的测量成为可能。通常,通过对一部分人群进行调查、民意调查或问卷调查来收集数据进行统计分析。研究人员能够将收集到的发现应用于整个人群。
定量数据的类型
主要有两种类型的定量数据,它们是 -
离散数据
这些数据只能采用某些值,而不是范围。例如,有关人群的血型或性别的数据被视为离散数据。
离散定量数据的示例可能是您网站的访问者数量;您一天内可以有 150 次访问,但不可能有 150.6 次访问。通常,统计图、条形图和饼图用于表示离散数据。
离散数据的特点
由于离散数据易于汇总和计算,因此常用于基础统计分析。让我们来看看离散数据的一些其他基本特征 -
离散数据由有限、可测量、可数且不能为负(5、10、15 等)的离散变量组成。
简单的统计方法,如条形图、折线图和饼图,可以轻松显示和解释离散数据。
数据也可以是分类的,这意味着它具有固定数量的数据值,例如人的性别。
受时间和空间限制的数据以随机方式分布。离散分布使查看离散值变得更加容易。
连续数据
这些数据可能取一定范围内的值,包括可能的最大值和最小值。最大值和最小值之间的差称为数据范围。例如,您学校孩子的身高和体重。这被认为是连续数据。连续数据的表格表示称为频率分布。这些可以使用直方图直观地描述。
连续数据的特征
另一方面,连续数据可以是数字,也可以随时间和日期分布。此数据类型使用高级统计分析方法,因为可能的值有无限多个。连续数据的重要特征是 -
连续数据随着时间的推移而变化,并且在不同的时间点,它可以具有不同的值。
随机变量(可能是整数,也可能不是整数)构成连续数据。
折线图、倾斜等数据分析工具用于测量连续数据。
经常使用的一种连续数据分析是回归分析。
定量数据收集方法
以下是收集定量数据的一些方法和收集方法 -
调查和问卷-这些类型的研究有助于从用户和客户那里获得详细的反馈,特别是关于人们对产品、服务或体验的感受。
开源数据集- 有很多公共数据集可以在线找到并免费分析。研究人员有时会查看已经收集的数据,并尝试以适合自己研究项目的方式找出其含义。
实验- 一种常见的方法是实验,通常有一个对照组和一个实验组。实验的设置使其可以控制并且可以根据需要改变条件。
抽样- 当有很多数据点时,可能无法调查每个人或数据点。在这种情况下,定量研究是在抽样的帮助下完成的。抽样是选择能够代表整体的数据样本的过程。抽样的两种类型是随机抽样(也称为概率抽样)和非随机抽样。
数据收集的类型
数据收集根据来源可分为两种类型 -
主要数据- 这些是调查人员出于特定目的首次获取的数据。主要数据是“纯粹的”,因为它们没有经过任何统计操作并且是真实的。原始数据的例子包括印度人口普查。
辅助数据- 这些是最初由某个实体收集的数据。这表明此类数据已经由研究人员或调查人员收集,并且可以以已发表或未发表的形式获取。该数据是不纯的,因为之前可能已经对其进行了统计计算。例如,可在印度政府或财政部网站或其他档案、书籍、期刊等中访问的信息。
大数据
大数据被定义为数据量较大,需要克服逻辑挑战来处理它们。大数据是指更大、更复杂的数据集合,特别是来自新颖数据源的数据集合。有些数据集非常广泛,传统的数据处理软件无法处理它们。但是,这些大量的数据可以用来解决以前无法解决的业务挑战。
数据科学是研究如何分析大量数据并从中获取信息的学科。您可以将大数据和数据科学与原油和炼油厂进行比较。数据科学和大数据源于统计学和传统的数据管理方式,但现在它们被视为独立的领域。
人们经常使用三个V来描述大数据的特征 -
体积- 有多少信息?
多样性- 不同类型的数据有何不同?
速度- 新信息的生成速度有多快?
我们如何在数据科学中使用数据?
每个数据都必须经过预处理。这是一系列重要的过程,将原始数据转换为更易于理解和更有价值的格式以供进一步处理。常见程序是 -
收集和存储数据集
数据清理
处理缺失数据
噪声数据
数据整合
数据转换
概括
正常化
属性选择
聚合
我们将在接下来的章节中详细讨论这些过程。