Beautiful Soup教程

Beautiful Soup教程


在本教程中,我们将向您展示如何使用 Beautiful Soup 4 在 Python 中执行网页抓取,以从 HTML、XML 和其他标记语言中获取数据。在此,我们将尝试从各种不同的网站(包括 IMDB)中抓取网页。我们将介绍 beautiful soup 4,这是一个用于高效、清晰地导航、搜索和解析 HTML 网页的 Python 基本工具。我们试图在本教程中涵盖 Beautiful Soup 4 的几乎所有功能。您可以将本教程中介绍的多种功能组合到一个更大的程序中,以从网站捕获多个有意义的数据到其他子程序中作为输入。

观众

本教程的主要目的是指导您浏览网页。所有这一切的基本要求是从庞大的无组织数据集中获取有意义的数据。本教程的目标受众可以是以下任何人:

  • 任何想知道如何使用 BeautifulSoup 4 在 python 中抓取网页的人。

  • 任何数据科学开发人员/爱好者或任何人,都希望如何使用这些抓取的(有意义的)数据到不同的 python 数据科学库来做出更好的决策。

先决条件

尽管本教程没有强制要求。但是,如果您对以下提到的任何技术有任何或所有(超级酷)先验知识,这将是一个额外的优势 -

  • 了解任何网络相关技术(HTML/CSS/文档对象模型等)。

  • Python 语言(因为它是 python 包)。

  • 具有任何语言抓取知识的开发人员。

  • 对 HTML 树结构有基本的了解。