摘要:
目录列表 阅读全文
posted @ 2018-09-25 15:58
ShadowXie
阅读(143)
评论(0)
推荐(0)
摘要:
1 class xiaoshuoSpider(scrapy.Spider): 2 name = "freenovel" 3 headers={ 4 'Upgrade - Insecure - Requests': '1', 5 } 6 def start_requests(self): 7 #完本、免费小说 8 ... 阅读全文
posted @ 2018-09-25 15:49
ShadowXie
阅读(489)
评论(0)
推荐(0)
摘要:
一.文件保存 1.分类保存 2.直接保存 3.图片下载(setting.py文件中设置保存路径 IMAGES_STORE=os.path.join(os.path.dirname(os.path.dirname(__file__)),'images') ) 二、内容去重 阅读全文
posted @ 2018-09-25 15:46
ShadowXie
阅读(243)
评论(0)
推荐(0)
摘要:
# Obey robots.txt rulesROBOTSTXT_OBEY = False 不遵从网站的robots.txt法则 # See also autothrottle settings and docsDOWNLOAD_DELAY = 3 每次下载延迟3秒,防止造成网站攻击 # Overr 阅读全文
posted @ 2018-09-25 15:37
ShadowXie
阅读(212)
评论(0)
推荐(0)
摘要:
一、Html定位 1.常用的路径表达式: 2.例子: 二、json定位 本文来自 彭世瑜 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/mouday/article/details/80455560?utm_source=copy 阅读全文
posted @ 2018-09-25 15:30
ShadowXie
阅读(552)
评论(0)
推荐(0)
摘要:
必备插件: lxml, an efficient XML and HTML parser parsel, an HTML/XML data extraction library written on top of lxml w3lib, a multi-purpose helper for deal 阅读全文
posted @ 2018-09-25 15:16
ShadowXie
阅读(776)
评论(0)
推荐(0)

浙公网安备 33010602011771号