- Python 网页抓取教程
- Python 网页抓取 - 主页
- 介绍
- Python 入门
- 用于网页抓取的 Python 模块
- 网页抓取的合法性
- 数据提取
- 数据处理
- 处理图像和视频
- 处理文本
- 抓取动态网站
- 抓取基于表单的网站
- 处理验证码
- 使用刮刀进行测试
- Python 网页抓取资源
- Python 网页抓取 - 快速指南
- Python 网页抓取 - 资源
- Python 网页抓取 - 讨论
Python 网页抓取 - 简介
网页抓取是从网页中提取信息的自动过程。本章将让您深入了解网络抓取、它与网络抓取的比较,以及为什么应该选择网络抓取。您还将了解网络抓取工具的组件和工作原理。
什么是网页抓取?
“刮擦”一词的字典含义意味着从网络上获取某些东西。这里出现了两个问题:我们可以从网络获取什么以及如何获取。
第一个问题的答案是“数据”。数据对于任何程序员来说都是不可或缺的,每个编程项目的基本要求就是大量的有用数据。
第二个问题的答案有点棘手,因为获取数据的方法有很多。一般来说,我们可以从数据库或数据文件等其他来源获取数据。但是,如果我们需要大量在线数据怎么办?获取此类数据的一种方法是手动搜索(在网络浏览器中单击)并保存(复制粘贴到电子表格或文件中)所需的数据。这种方法相当繁琐且耗时。获取此类数据的另一种方法是使用网络抓取。
网络抓取,也称为网络数据挖掘或网络收获,是构建一个能够自动从网络中提取、解析、下载和组织有用信息的代理的过程。换句话说,我们可以说,网络抓取软件不会根据我们的要求自动从多个网站加载和提取数据,而不是手动保存网站的数据。
网页抓取的起源
Web 抓取的起源是屏幕抓取,用于集成非基于 Web 的应用程序或本机 Windows 应用程序。最初,屏幕抓取是在万维网 (WWW) 广泛使用之前使用的,但它无法扩展 WWW 的扩展。这使得有必要实现屏幕抓取方法的自动化,并且称为“网页抓取”的技术应运而生。
网络爬行与网络抓取
术语网络爬行和抓取通常可以互换使用,因为它们的基本概念是提取数据。然而,它们彼此不同。我们可以从它们的定义中了解基本的区别。
网络爬行基本上用于使用机器人(又称爬虫)对页面上的信息进行索引。它也称为索引。另一方面,网络抓取是一种使用机器人(又称抓取工具)提取信息的自动化方法。也称为数据提取。
为了理解这两个术语之间的区别,让我们看看下面给出的比较表 -
网络爬行 | 网页抓取 |
---|---|
指下载并存储大量网站内容。 | 指使用特定于站点的结构从网站中提取单个数据元素。 |
大多是大规模完成的。 | 可以以任何规模实施。 |
产生通用信息。 | 产生具体信息。 |
被 Google、Bing、Yahoo 等主要搜索引擎使用。Googlebot是网络爬虫的一个示例。 | 使用网络抓取提取的信息可用于在其他网站中复制或可用于执行数据分析。例如,数据元素可以是名称、地址、价格等。 |
网页抓取的用途
使用网络抓取的用途和原因就像万维网的用途一样无穷无尽。网络抓取工具可以做任何事情,例如在线订购食物、为您扫描在线购物网站以及在有比赛门票时购买比赛门票等,就像人类可以做的那样。这里讨论了网络抓取的一些重要用途 -
电子商务网站- 网络抓取工具可以从各个电子商务网站收集与特定产品的价格专门相关的数据以进行比较。
内容聚合器- 网络抓取被新闻聚合器和工作聚合器等内容聚合器广泛使用,用于向用户提供更新的数据。
营销和销售活动- 网络抓取工具可用于获取销售和营销活动的电子邮件、电话号码等数据。
搜索引擎优化 (SEO) - 网络抓取被 SEMRush、Majestic 等 SEO 工具广泛使用,以告诉企业他们对重要的搜索关键字的排名如何。
机器学习项目的数据- 机器学习项目的数据检索取决于网络抓取。
研究数据- 研究人员可以通过这种自动化过程节省时间来收集用于研究工作的有用数据。
网络爬虫的组件
网络抓取工具由以下组件组成 -
网络爬虫模块
网络爬虫模块是网络爬虫中非常必要的组件,用于通过向 URL 发出 HTTP 或 HTTPS 请求来导航目标网站。爬虫下载非结构化数据(HTML 内容)并将其传递给下一个模块提取器。
提取器
提取器处理获取的 HTML 内容并将数据提取为半结构化格式。这也称为解析器模块,并使用不同的解析技术(例如正则表达式、HTML 解析、DOM 解析或人工智能)来实现其功能。
数据转换和清洗模块
上面提取的数据不适合立即使用。它必须经过一些清洁模块,我们才能使用它。可以使用字符串操作或正则表达式等方法来实现此目的。请注意,提取和转换也可以在一个步骤中执行。
存储模块
提取数据后,我们需要按照我们的要求存储它。存储模块将以标准格式输出数据,该格式可以存储在数据库或JSON或CSV格式中。
网络爬虫的工作原理
网络抓取可以定义为用于下载多个网页内容并从中提取数据的软件或脚本。
我们可以通过简单的步骤来了解网络抓取工具的工作原理,如上图所示。
第1步:从网页下载内容
在此步骤中,网络抓取工具将从多个网页下载请求的内容。
第 2 步:提取数据
网站上的数据是 HTML,而且大多是非结构化的。因此,在这一步中,网络爬虫将从下载的内容中解析并提取结构化数据。
第 3 步:存储数据
在这里,网络抓取工具将以任何格式(如 CSV、JSON 或数据库)存储和保存提取的数据。
第四步:分析数据
成功完成所有这些步骤后,网络抓取工具将分析由此获得的数据。