数据科学 - 入门


数据科学是从数据中提取和分析有用信息以解决难以通过分析解决的问题的过程。例如,当您访问电子商务网站并在购买前查看一些类别和产品时,您正在创建数据,分析师可以使用这些数据来确定您的购买方式。

它涉及不同的学科,例如数学和统计建模、从源中提取数据以及应用数据可视化技术。它还涉及处理大数据技术来收集结构化和非结构化数据。

它可以帮助您找到隐藏在原始数据中的模式。“数据科学”一词的演变是因为数理统计、数据分析和“大数据”随着时间的推移而发生了变化。

数据科学是一个跨学科领域,可让您从有组织和无组织的数据中学习。通过数据科学,您可以将业务问题转化为研究项目,然后应用于现实世界的解决方案。

数据科学史

John Tukey 在 1962 年使用“数据分析”一词来定义一个类似于当前现代数据科学的领域。1985 年,CF Jeff Wu 在北京向中国科学院演讲时首次引入了“数据科学”一词作为统计学的替代词。随后,1992 年在蒙彼利埃第二大学举行的统计会议上,与会者认识到一个以多种来源和形式的数据为中心的新领域的诞生,它将统计和数据分析的已知思想和原理与计算机相结合。

Peter Naur 于 1974 年建议用“数据科学”作为计算机科学的替代名称。国际分类协会联合会于 1996 年首次召开会议,强调数据科学作为一个特殊主题。然而,这个概念仍然在变化。继 1985 年在北京的中国科学院演讲之后,CF Jeff Wu 于 1997 年再次主张将统计学更名为“数据科学”。他认为新名称可能会助长统计学的不准确刻板印象和认知,例如与会计相关联。或仅限于数据描述。Hayashi Chikio 于 1998 年提出数据科学作为一个新的、多学科的概念,由三个组成部分:数据设计、数据收集和数据分析。

在 20 世纪 90 年代,“知识发现”和“数据挖掘”是识别规模不断增长的数据集中模式的过程的流行短语。

2012 年,工程师 Thomas H. Davenport 和 DJ Patil 提出了“数据科学家:21 世纪最热门的工作”这一术语,并被《纽约时报》和《波士顿环球报》等主要都市出版物采用。十年后他们又重复了一遍,并补充说“这个职位的需求量比以往任何时候都多”

William S. Cleveland 经常与目前对数据科学作为一个独立领域的理解联系在一起。在 2001 年的一项研究中,他主张将统计学发展到技术领域;需要一个新名称,因为这将从根本上改变主题。在接下来的几年里,“数据科学”变得越来越流行。2002 年,科学技术数据委员会出版了《数据科学杂志》。哥伦比亚大学于2003年创办了《数据科学杂志》。美国统计协会统计学习和数据挖掘分会于2014年更名为统计学习和数据科学分会,反映出数据科学的日益普及。

2008 年,DJ Patil 和 Jeff Hammerbacher 被授予“数据科学家”的专业称号。尽管国家科学委员会在 2005 年的研究“长期数字数据收集:支持 21 世纪的研究和教学”中使用了该词,但它指的是管理数字数据收集中的任何重要作用。

关于数据科学的含义尚未达成一致,有些人认为它是一个流行词。大数据是营销中类似的概念。数据科学家负责将大量数据转化为有用信息,并开发软件和算法来帮助企业和组织确定最佳运营。

为什么是数据科学?

据 IDC 称,到 2025 年,全球数据将达到 175 ZB。数据科学帮助企业理解来自不同来源的大量数据,提取有用的见解,并做出更好的数据驱动选择。数据科学广泛应用于多个工业领域,例如营销、医疗保健、金融、银行和政策工作。

以下是使用数据分析技术的显着优势 -

  • 数据是现代的石油。借助适当的工具、技术和算法,我们可以利用数据创造独特的竞争优势。

  • 数据科学可以帮助使用复杂的机器学习技术检测欺诈。

  • 它可以帮助您避免严重的经济损失。

  • 推动智能机器的发展

  • 您可以使用情感分析来确定客户的品牌忠诚度。这可以帮助您做出更好、更快的选择。

  • 它使您能够向合适的消费者推荐合适的产品,以发展您的公司。

对数据科学的需求

我们拥有的数据以及我们生成的数据量

据《福布斯》报道,2010 年至 2020 年间,全球生成、复制、记录和消费的数据总量激增约 5,000%,从 1.2 万亿吉字节增至 59 万亿吉字节。

公司如何从数据科学中受益?

  • 一些企业正在经历数据转型(将其 IT 架构转换为支持数据科学的架构),周围有数据训练营等等。事实上,对此有一个简单的解释:数据科学提供了有价值的见解。

  • 公司正在被基于数据做出判断的公司所击败。例如,福特公司2006年亏损126亿美元。失败后,他们聘请了一位高级数据科学家来管理数据,并进行了为期三年的改造。最终实现汽车销量近230万辆,2009年全年实现盈利。

数据科学家的需求和平均工资

  • 据《今日印度》报道,由于公司和服务的快速数字化,印度成为世界第二大数据科学中心。分析师预计,到 2026 年,全国将拥有超过 1100 万个就业机会。事实上,自 2019 年以来,数据科学领域的招聘人数激增了 46%。

  • 十年前,美国银行是首批向消费者提供移动银行服务的金融机构之一。最近,美国银行推出了其第一位虚拟财务助理 Erica。它被认为是世界上最好的金融发明。

    Erica 现在担任全球超过 4500 万消费者的客户顾问。Erica 使用语音识别来接收客户反馈,这代表了数据科学的技术发展。

  • 数据科学和机器学习曲线很陡峭。尽管印度每年都有大量数据科学家涌入,但拥有所需技能和专业知识的人相对较少。因此,对具有专业数据技能的人才的需求量很大。

数据科学的影响

数据科学对现代文明的多个方面产生了重大影响。数据科学对组织的重要性不断增加。根据一项研究,到 2023 年,全球数据科学市场将达到 1150 亿美元。

医疗保健行业受益于数据科学的兴起。2008 年,谷歌员工意识到他们可以实时监测流感毒株。以前的技术只能提供实例的每周更新。谷歌能够利用数据科学构建第一个监测疾病传播的系统。

体育行业也同样从数据科学中获益。2019 年,一位数据科学家找到了衡量和计算射门次数如何增加足球队获胜几率的方法。实际上,数据科学可用于轻松计算多种运动的统计数据。

政府机构也每天使用数据科学。全球各国政府都使用数据库来监控有关社会保障、税收和其他居民数据的信息。政府对新兴技术的使用不断发展。

Since the Internet has become the primary medium of human communication, the popularity of e-commerce has also grown. With data science, online firms may monitor the whole of the customer experience, including marketing efforts, purchases, and consumer trends. Ads must be one of the greatest instances of eCommerce firms using data science. Have you ever looked for anything online or visited an eCommerce product website, only to be bombarded by advertisements for that product on social networking sites and blogs?

Ad pixels are integral to the online gathering and analysis of user information. Companies leverage online consumer behaviour to retarget prospective consumers throughout the internet. This usage of client information extends beyond eCommerce. Apps such as Tinder and Facebook use algorithms to assist users locate precisely what they are seeking. The Internet is a growing treasure trove of data, and the gathering and analysis of this data will also continue to expand.