- Scrapy教程
- Scrapy - 主页
- Scrapy 基本概念
- Scrapy - 概述
- Scrapy - 环境
- Scrapy - 命令行工具
- Scrapy - 蜘蛛
- Scrapy - 选择器
- Scrapy - 项目
- Scrapy - 物品加载器
- Scrapy - 外壳
- Scrapy - 项目管道
- Scrapy - 饲料出口
- Scrapy - 请求和响应
- Scrapy - 链接提取器
- Scrapy-设置
- Scrapy - 异常
- Scrapy 现场项目
- Scrapy - 创建一个项目
- Scrapy - 定义一个项目
- Scrapy - 第一个蜘蛛
- Scrapy - 爬行
- Scrapy - 提取项目
- Scrapy - 使用项目
- Scrapy - 以下链接
- Scrapy - 抓取数据
- Scrapy 有用的资源
- Scrapy - 快速指南
- Scrapy - 有用的资源
- Scrapy - 讨论
Scrapy - 饲料出口
描述
Feed 导出是一种存储从站点抓取的数据的方法,即生成“导出文件”。
序列化格式
通过使用多种序列化格式和存储后端,Feed Exports 使用项目导出器并生成包含已抓取项目的 Feed。
下表显示了支持的格式 -
先生编号 | 格式及描述 |
---|---|
1 | JSON FEED_FORMAT 是json 使用的导出器是类 scrapy.exporters.JsonItemExporter |
2 | JSON 行 FEED_FROMAT 是jsonlines 使用的导出器是类 scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT 是CSV 使用的导出器是类 scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT 是xml 使用的导出器是类 scrapy.exporters.XmlItemExporter |
使用FEED_EXPORTERS设置,还可以扩展支持的格式 -
先生编号 | 格式及描述 |
---|---|
1 | 泡菜 FEED_FORMAT 是pickel 使用的导出器是类 scrapy.exporters.PickleItemExporter |
2 | 元帅 FEED_FORMAT 是编组 使用的导出器是类 scrapy.exporters.MarshalItemExporter |
存储后端
存储后端使用 URI 定义存储 feed 的位置。
下表显示了支持的存储后端 -
先生编号 | 存储后端及说明 |
---|---|
1 | 本地文件系统 URI 方案是文件,用于存储提要。 |
2 | 文件传输协议 URI 方案是ftp,用于存储提要。 |
3 | S3 |
4 | 标准输出 URI 方案是标准输出,提要存储到标准输出。 |
存储 URI 参数
以下是存储 URL 的参数,在创建 feed 时会被替换 -
- %(time)s:此参数被时间戳替换。
- %(name)s:此参数被蜘蛛名称替换。
设置
下表显示了可以配置 Feed 导出的设置 -
先生编号 | 设置及说明 |
---|---|
1 | FEED_URI 它是用于启用 feed 导出的导出 feed 的 URI。 |
2 | FEED_FORMAT 它是用于提要的序列化格式。 |
3 | FEED_EXPORT_FIELDS 它用于定义需要导出的字段。 |
4 | FEED_STORE_EMPTY 它定义是否导出没有项目的提要。 |
5 | FEED_STORAGES 它是一个带有额外提要存储后端的字典。 |
6 | FEED_STORAGES_BASE 它是一个带有内置提要存储后端的字典。 |
7 | 饲料出口商 它是一个带有附加 feed 导出器的字典。 |
8 | FEED_EXPORTERS_BASE 它是一本带有内置 feed 导出器的字典。 |