- Scrapy教程
- Scrapy - 主页
- Scrapy 基本概念
- Scrapy - 概述
- Scrapy - 环境
- Scrapy - 命令行工具
- Scrapy - 蜘蛛
- Scrapy - 选择器
- Scrapy - 项目
- Scrapy - 物品加载器
- Scrapy - 外壳
- Scrapy - 项目管道
- Scrapy - 饲料出口
- Scrapy - 请求和响应
- Scrapy - 链接提取器
- Scrapy-设置
- Scrapy - 异常
- Scrapy 现场项目
- Scrapy - 创建一个项目
- Scrapy - 定义一个项目
- Scrapy - 第一个蜘蛛
- Scrapy - 爬行
- Scrapy - 提取项目
- Scrapy - 使用项目
- Scrapy - 以下链接
- Scrapy - 抓取数据
- Scrapy 有用的资源
- Scrapy - 快速指南
- Scrapy - 有用的资源
- Scrapy - 讨论
Scrapy - 概述
Scrapy是一个用Python编写的快速、开源的网络爬虫框架,用于借助基于XPath的选择器从网页中提取数据。
Scrapy 于 2008 年 6 月 26 日首次发布,并在 BSD 下获得许可,里程碑 1.0 于 2015 年 6 月发布。
为什么使用 Scrapy?
构建和扩展大型爬行项目更加容易。
它有一个称为选择器的内置机制,用于从网站中提取数据。
它异步处理请求并且速度很快。
它利用自动节流机制自动调节爬行速度。
确保开发人员的可访问性。
Scrapy的特点
Scrapy 是一个开源且免费使用的网络爬虫框架。
Scrapy 生成 JSON、CSV 和 XML 等格式的 feed 导出。
Scrapy 内置支持通过 XPath 或 CSS 表达式从源中选择和提取数据。
Scrapy基于爬虫,可以自动从网页中提取数据。
优点
Scrapy 易于扩展、快速且功能强大。
它是一个跨平台的应用程序框架(Windows、Linux、Mac OS 和 BSD)。
Scrapy 请求是异步调度和处理的。
Scrapy 附带了名为Scrapyd 的内置服务,它允许使用 JSON Web 服务上传项目并控制蜘蛛。
废弃任何网站都是可能的,尽管该网站没有用于访问原始数据的 API。
缺点
Scrapy 仅适用于 Python 2.7。+
不同操作系统的安装有所不同。