我来自北方 跨过山与海 驻足你门外

09 2020 档案

摘要:###scrapy持久化存储 基于终端的存储 - 只可以将parse方法的返回值存储到本地的文本文件中 - 只支持json jsonlines jl csv xml marshal pickle这几种文本 - 好处:简洁,高效 - 缺点:局限性比较强(数据只可以存储到指定后缀的文本文件中) - 指令 阅读全文
posted @ 2020-09-22 22:41 SkyRabbit 阅读(99) 评论(0) 推荐(0)
摘要:###scrapy 配置文件setting.py BOT_NAME = 'TestOne' SPIDER_MODULES = ['TestOne.spiders'] NEWSPIDER_MODULE = 'TestOne.spiders' #UA伪装 USER_AGENT = 'Mozilla/5. 阅读全文
posted @ 2020-09-22 22:28 SkyRabbit 阅读(99) 评论(0) 推荐(0)
摘要:###如何创建一个Scrapy的框架 #TestOne是名字 scrapy startproject TestOne ###在spiders子目录中创建一个爬虫文件 # spiderName 名字 # www.xxx.com起始url scrapy genspider spiderName www. 阅读全文
posted @ 2020-09-22 20:53 SkyRabbit 阅读(97) 评论(0) 推荐(0)
摘要:###实战项目,干货满满 import requests from hashlib import md5 #实现规避检测 from selenium.webdriver import FirefoxOptions from selenium.webdriver import ChromeOption 阅读全文
posted @ 2020-09-22 11:59 SkyRabbit 阅读(226) 评论(0) 推荐(0)
摘要:###先实例化 from selenium import webdriver #实例化一个浏览器对象,获取网址 web_requests=webdriver.Chrome(executable_path='./chormedriver') web_requests.get('') ###iframe 阅读全文
posted @ 2020-09-21 11:58 SkyRabbit 阅读(180) 评论(0) 推荐(0)
摘要:###什么是Selenium模块 -基于浏览器自动化的一个模块 ###selenium使用流程: pip install selenium -下载一个浏览器的驱动程序 http://chromedriver.storage.googleapis.com/index.html ###如何简单selen 阅读全文
posted @ 2020-09-21 10:30 SkyRabbit 阅读(117) 评论(0) 推荐(0)

您的浏览器不兼容canvas