Scrapy - 饲料出口


描述

Feed 导出是一种存储从站点抓取的数据的方法,即生成“导出文件”

序列化格式

通过使用多种序列化格式和存储后端,Feed Exports 使用项目导出器并生成包含已抓取项目的 Feed。

下表显示了支持的格式 -

先生编号 格式及描述
1

JSON

FEED_FORMAT 是json

使用的导出器是类 scrapy.exporters.JsonItemExporter

2

JSON 行

FEED_FROMAT 是jsonlines

使用的导出器是类 scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT 是CSV

使用的导出器是类 scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT 是xml

使用的导出器是类 scrapy.exporters.XmlItemExporter

使用FEED_EXPORTERS设置,还可以扩展支持的格式 -

先生编号 格式及描述
1

泡菜

FEED_FORMAT 是pickel

使用的导出器是类 scrapy.exporters.PickleItemExporter

2

元帅

FEED_FORMAT 是编组

使用的导出器是类 scrapy.exporters.MarshalItemExporter

存储后端

存储后端使用 URI 定义存储 feed 的位置。

下表显示了支持的存储后端 -

先生编号 存储后端及说明
1

本地文件系统

URI 方案是文件,用于存储提要。

2

文件传输协议

URI 方案是ftp,用于存储提要。

3

S3

URI 方案是S3,源存储在 Amazon S3 上。需要外部库botocoreboto 。

4

标准输出

URI 方案是标准输出,提要存储到标准输出。

存储 URI 参数

以下是存储 URL 的参数,在创建 feed 时会被替换 -

  • %(time)s:此参数被时间戳替换。
  • %(name)s:此参数被蜘蛛名称替换。

设置

下表显示了可以配置 Feed 导出的设置 -

先生编号 设置及说明
1

FEED_URI

它是用于启用 feed 导出的导出 feed 的 URI。

2

FEED_FORMAT

它是用于提要的序列化格式。

3

FEED_EXPORT_FIELDS

它用于定义需要导出的字段。

4

FEED_STORE_EMPTY

它定义是否导出没有项目的提要。

5

FEED_STORAGES

它是一个带有额外提要存储后端的字典。

6

FEED_STORAGES_BASE

它是一个带有内置提要存储后端的字典。

7

饲料出口商

它是一个带有附加 feed 导出器的字典。

8

FEED_EXPORTERS_BASE

它是一本带有内置 feed 导出器的字典。