Spider - 随笔分类 - lin-gooo

Spider-five

摘要：一、Scrapy框架 1. Scrapy框架主要组成 a. Scrapy三个对象: request请求对象、response响应对象、item数据对象(字典) b. Scrapy五个核心组件： Spider爬虫组件、构建爬虫的起始请求并交给调度器，解析响应提取数据，交给管道保存。 Engine引擎阅读全文

posted @ 2019-04-01 15:14 lin-gooo 阅读(113) 评论(0) 推荐(0)

Spider-four

摘要：计算机速度比较: CPU -> 寄存器 -> 缓存L1/L2/L3 -> 内存 -> 硬盘 -> 网卡 -> BIOS LMAP: Linux + MySQL + Apache + PHP/Python Windows Server + SQL Server + ASP.net SQL(MySQL、阅读全文

posted @ 2019-03-31 10:13 lin-gooo 阅读(125) 评论(0) 推荐(0)

Spider-three

摘要：一、selenium from selenium import webdriver driver = webdriver.Chrome() # 创建一个chrome浏览器控制对象#driver = webdriver.PhantomJS() # 创建一个phantomjs无界面浏览器 driver. 阅读全文

posted @ 2019-03-31 10:08 lin-gooo 阅读(220) 评论(0) 推荐(1)

Spider-two

摘要：一、网络数据加密：1. md5 / sha1 不可逆加密算法：结果是十六进制数, 结果不可逆, 多用于文件验证 import hashlib md5_obj = hashlib.md5() sha1_obj = hashlib.sha1() md5_obj.update("非Unicode字符串" 阅读全文

posted @ 2019-03-31 10:03 lin-gooo 阅读(127) 评论(0) 推荐(0)

Spider-one

摘要：1. 爬虫是如何采集网页数据的：网页的三大特征: -1. 每个网页都有自己的 URL（统一资源定位符）地址来进行网络定位。 -2. 每个网页都使用 HTML（超文本标记语言）来描述页面信息。 -3. 网页都使用 HTTP（超文本传输协议）来传递 HTML数据。爬虫的设计流程： -1. 爬虫通过网阅读全文

posted @ 2019-03-26 08:32 lin-gooo 阅读(191) 评论(0) 推荐(0)

随笔分类 - Spider

公告