Scrapy items 项目
1.items
抓取的主要目标是从非结构化来源(通常是网页)中提取结构化数据. spider可以将提取的数据返回为items,即定义键值对的 Python 对象。
scrapy支持多种类型的items。
scrapy通过itemadapter库支持以下类型的item: 字典(dictionaries),item对象,dataclass objects(数据类对象),attrs objects
1)字典
作为一个item类型,dict是即方便又熟悉的
2) item对象
item对象复制标准dict api,包括其__init__方法
item对象还提供了复制 item.copy(),深拷贝item.deepcopy() 并返回
fields此item的所有声明字段
如下所示
class QuoteItem(scrapy.Item): text=scrapy.Field() author=scrapy.Field() tags=scrapy.Field()
3)数据类对象
如下所示,CustomItem被声明为一个数据类对象,该类可以定义字段类型和默认值
from dataclasses import dataclass @dataclass class CustomItem: one_field: str another_field: int
4)attr
需要安装attrs包,暂不介绍
浙公网安备 33010602011771号