Scrapy - 概述


Scrapy是一个用Python编写的快速、开源的网络爬虫框架,用于借助基于XPath的选择器从网页中提取数据。

Scrapy 于 2008 年 6 月 26 日首次发布,并在 BSD 下获得许可,里程碑 1.0 于 2015 年 6 月发布。

为什么使用 Scrapy?

  • 构建和扩展大型爬行项目更加容易。

  • 它有一个称为选择器的内置机制,用于从网站中提取数据。

  • 它异步处理请求并且速度很快。

  • 它利用自动节流机制自动调节爬行速度。

  • 确保开发人员的可访问性。

Scrapy的特点

  • Scrapy 是一个开源且免费使用的网络爬虫框架。

  • Scrapy 生成 JSON、CSV 和 XML 等格式的 feed 导出。

  • Scrapy 内置支持通过 XPath 或 CSS 表达式从源中选择和提取数据。

  • Scrapy基于爬虫,可以自动从网页中提取数据。

优点

  • Scrapy 易于扩展、快速且功能强大。

  • 它是一个跨平台的应用程序框架(Windows、Linux、Mac OS 和 BSD)。

  • Scrapy 请求是异步调度和处理的。

  • Scrapy 附带了名为Scrapyd 的内置服务,它允许使用 JSON Web 服务上传项目并控制蜘蛛。

  • 废弃任何网站都是可能的,尽管该网站没有用于访问原始数据的 API。

缺点

  • Scrapy 仅适用于 Python 2.7。+

  • 不同操作系统的安装有所不同。