- Python 网页抓取教程
- Python 网页抓取 - 主页
- 介绍
- Python 入门
- 用于网页抓取的 Python 模块
- 网页抓取的合法性
- 数据提取
- 数据处理
- 处理图像和视频
- 处理文本
- 抓取动态网站
- 抓取基于表单的网站
- 处理验证码
- 使用刮刀进行测试
- Python 网页抓取资源
- Python 网页抓取 - 快速指南
- Python 网页抓取 - 资源
- Python 网页抓取 - 讨论
Python 网页抓取 - 数据提取
分析网页意味着了解其结构。现在,问题来了,为什么它对于网络抓取很重要?在本章中,让我们详细了解这一点。
网页分析
网页分析很重要,因为如果不进行分析,我们就无法知道提取后将以哪种形式从该网页(结构化或非结构化)接收数据。我们可以通过以下方式进行网页分析 -
查看页面源代码
这是一种通过检查源代码来了解网页的结构的方法。要实现此目的,我们需要右键单击页面,然后必须选择“查看页面源”选项。然后,我们将从该网页中以 HTML 的形式获取我们感兴趣的数据。但主要担心的是空格和格式,这对我们来说很难格式化。
通过单击检查元素选项检查页面源
这是分析网页的另一种方法。但不同的是,它会解决网页源代码中的格式和空格问题。您可以通过右键单击然后从菜单中选择“检查”或“检查元素”选项来实现此目的。它将提供有关该网页的特定区域或元素的信息。
从网页提取数据的不同方法
以下方法主要用于从网页中提取数据 -
正则表达式
它们是嵌入 Python 中的高度专业化的编程语言。我们可以通过Python的re模块来使用它。它也称为 RE 或正则表达式或正则表达式模式。借助正则表达式,我们可以为我们想要从数据中匹配的可能的字符串集指定一些规则。
如果您想了解更多有关正则表达式的一般信息,请访问链接https://www.tutorialspoint.com/automata_theory/regular_expressions.htm,如果您想了解更多有关Python中的re模块或正则表达式的信息,您可以关注链接 https://www.tutorialspoint.com/python/python_reg_expressions.htm。
例子
在下面的示例中,我们将在正则表达式的帮助下匹配 <td> 的内容后,从http://example.webscraping.com中抓取有关印度的数据 。
import re import urllib.request response = urllib.request.urlopen('http://example.webscraping.com/places/default/view/India-102') html = response.read() text = html.decode() re.findall('<td class="w2p_fw">(.*?)</td>',text)
输出
相应的输出将如下所示 -
[ '<img src="/places/static/images/flags/in.png" />', '3,287,590 square kilometres', '1,173,108,018', 'IN', 'India', 'New Delhi', '<a href="/places/default/continent/AS">AS</a>', '.in', 'INR', 'Rupee', '91', '######', '^(\\d{6})$', 'enIN,hi,bn,te,mr,ta,ur,gu,kn,ml,or,pa,as,bh,sat,ks,ne,sd,kok,doi,mni,sit,sa,fr,lus,inc', '<div> <a href="/places/default/iso/CN">CN </a> <a href="/places/default/iso/NP">NP </a> <a href="/places/default/iso/MM">MM </a> <a href="/places/default/iso/BT">BT </a> <a href="/places/default/iso/PK">PK </a> <a href="/places/default/iso/BD">BD </a> </div>' ]
请注意,在上面的输出中,您可以使用正则表达式查看有关印度国家的详细信息。
Beautiful Soup
假设我们想要收集网页上的所有超链接,那么我们可以使用一个名为 BeautifulSoup 的解析器,可以在https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 上了解更多详细信息。简而言之,BeautifulSoup 是一个用于从 HTML 和 XML 文件中提取数据的 Python 库。它可以与请求一起使用,因为它需要输入(文档或 url)来创建 soup 对象,因为它本身无法获取网页。您可以使用以下Python脚本来收集网页标题和超链接。
安装Beautiful Soup
使用pip命令,我们可以在虚拟环境或全局安装中安装beautifulsoup 。
(base) D:\ProgramData>pip install bs4 Collecting bs4 Downloading https://files.pythonhosted.org/packages/10/ed/7e8b97591f6f456174139ec089c769f89 a94a1a4025fe967691de971f314/bs4-0.0.1.tar.gz Requirement already satisfied: beautifulsoup4 in d:\programdata\lib\sitepackages (from bs4) (4.6.0) Building wheels for collected packages: bs4 Running setup.py bdist_wheel for bs4 ... done Stored in directory: C:\Users\gaurav\AppData\Local\pip\Cache\wheels\a0\b0\b2\4f80b9456b87abedbc0bf2d 52235414c3467d8889be38dd472 Successfully built bs4 Installing collected packages: bs4 Successfully installed bs4-0.0.1
例子
请注意,在本示例中,我们扩展了使用 requests python 模块实现的上述示例。我们使用r.text创建一个 soup 对象,该对象将进一步用于获取网页标题等详细信息。
首先,我们需要导入必要的 Python 模块 -
import requests from bs4 import BeautifulSoup
在下面的代码行中,我们使用 requests 来通过发出 GET 请求来对 URL https://authoraditiagarwal.com/发出 GET HTTP 请求。
r = requests.get('https://authoraditiagarwal.com/')
现在我们需要创建一个 Soup 对象,如下所示 -
soup = BeautifulSoup(r.text, 'lxml') print (soup.title) print (soup.title.text)
输出
相应的输出将如下所示 -
<title>Learn and Grow with Aditi Agarwal</title> Learn and Grow with Aditi Agarwal
线性XML
我们要讨论的另一个用于网页抓取的 Python 库是 lxml。它是一个高性能的 HTML 和 XML 解析库。它相对快速且简单。您可以在 https://lxml.de/ 上阅读更多内容。
安装lxml
使用 pip 命令,我们可以在虚拟环境或全局安装中安装lxml 。
(base) D:\ProgramData>pip install lxml Collecting lxml Downloading https://files.pythonhosted.org/packages/b9/55/bcc78c70e8ba30f51b5495eb0e 3e949aa06e4a2de55b3de53dc9fa9653fa/lxml-4.2.5-cp36-cp36m-win_amd64.whl (3. 6MB) 100% |¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦| 3.6MB 64kB/s Installing collected packages: lxml Successfully installed lxml-4.2.5
示例:使用 lxml 和 requests 提取数据
在下面的示例中,我们使用 lxml 和 requests从authoraditiagarwal.com抓取网页的特定元素-
首先,我们需要从 lxml 库导入请求和 html,如下所示 -
import requests from lxml import html
现在我们需要提供要废弃的网页的 url
url = https://authoraditiagarwal.com/leadershipmanagement/
现在我们需要提供该网页特定元素的路径(Xpath) -
path = '//*[@id="panel-836-0-0-1"]/div/div/p[1]' response = requests.get(url) byte_string = response.content source_code = html.fromstring(byte_string) tree = source_code.xpath(path) print(tree[0].text_content())
输出
相应的输出将如下所示 -
The Sprint Burndown or the Iteration Burndown chart is a powerful tool to communicate daily progress to the stakeholders. It tracks the completion of work for a given sprint or an iteration. The horizontal axis represents the days within a Sprint. The vertical axis represents the hours remaining to complete the committed work.