随笔分类 -  Spider

Spider-five
摘要:一、Scrapy框架 1. Scrapy框架主要组成 a. Scrapy三个对象: request请求对象、response响应对象、item数据对象(字典) b. Scrapy五个核心组件: Spider爬虫组件、构建爬虫的起始请求并交给调度器, 解析响应提取数据,交给管道保存。 Engine引擎 阅读全文
posted @ 2019-04-01 15:14 lin-gooo 阅读(113) 评论(0) 推荐(0)
Spider-four
摘要:计算机速度比较: CPU -> 寄存器 -> 缓存L1/L2/L3 -> 内存 -> 硬盘 -> 网卡 -> BIOS LMAP: Linux + MySQL + Apache + PHP/Python Windows Server + SQL Server + ASP.net SQL(MySQL、 阅读全文
posted @ 2019-03-31 10:13 lin-gooo 阅读(125) 评论(0) 推荐(0)
Spider-three
摘要:一、selenium from selenium import webdriver driver = webdriver.Chrome() # 创建一个chrome浏览器控制对象#driver = webdriver.PhantomJS() # 创建一个phantomjs无界面浏览器 driver. 阅读全文
posted @ 2019-03-31 10:08 lin-gooo 阅读(220) 评论(0) 推荐(1)
Spider-two
摘要:一、网络数据加密:1. md5 / sha1 不可逆加密算法: 结果是十六进制数, 结果不可逆, 多用于文件验证 import hashlib md5_obj = hashlib.md5() sha1_obj = hashlib.sha1() md5_obj.update("非Unicode字符串" 阅读全文
posted @ 2019-03-31 10:03 lin-gooo 阅读(127) 评论(0) 推荐(0)
Spider-one
摘要:1. 爬虫是如何采集网页数据的: 网页的三大特征: -1. 每个网页都有自己的 URL(统一资源定位符)地址来进行网络定位。 -2. 每个网页都使用 HTML(超文本标记语言)来描述页面信息。 -3. 网页都使用 HTTP(超文本传输协议)来传递 HTML数据。 爬虫的设计流程: -1. 爬虫通过网 阅读全文
posted @ 2019-03-26 08:32 lin-gooo 阅读(191) 评论(0) 推荐(0)