随笔分类 - Spider
Spider-five
摘要:一、Scrapy框架 1. Scrapy框架主要组成 a. Scrapy三个对象: request请求对象、response响应对象、item数据对象(字典) b. Scrapy五个核心组件: Spider爬虫组件、构建爬虫的起始请求并交给调度器, 解析响应提取数据,交给管道保存。 Engine引擎
阅读全文
Spider-four
摘要:计算机速度比较: CPU -> 寄存器 -> 缓存L1/L2/L3 -> 内存 -> 硬盘 -> 网卡 -> BIOS LMAP: Linux + MySQL + Apache + PHP/Python Windows Server + SQL Server + ASP.net SQL(MySQL、
阅读全文
Spider-three
摘要:一、selenium from selenium import webdriver driver = webdriver.Chrome() # 创建一个chrome浏览器控制对象#driver = webdriver.PhantomJS() # 创建一个phantomjs无界面浏览器 driver.
阅读全文
Spider-two
摘要:一、网络数据加密:1. md5 / sha1 不可逆加密算法: 结果是十六进制数, 结果不可逆, 多用于文件验证 import hashlib md5_obj = hashlib.md5() sha1_obj = hashlib.sha1() md5_obj.update("非Unicode字符串"
阅读全文
Spider-one
摘要:1. 爬虫是如何采集网页数据的: 网页的三大特征: -1. 每个网页都有自己的 URL(统一资源定位符)地址来进行网络定位。 -2. 每个网页都使用 HTML(超文本标记语言)来描述页面信息。 -3. 网页都使用 HTTP(超文本传输协议)来传递 HTML数据。 爬虫的设计流程: -1. 爬虫通过网
阅读全文
浙公网安备 33010602011771号