2019年9月19日

摘要: 第六天: 使用Beautiful Soup解析网页 通过requests库已经可以抓到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库,其最主要的功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中,也就是说在导入Beautifu 阅读全文
posted @ 2019-09-19 20:26 Mr-Su 阅读(323) 评论(0) 推荐(0) 编辑
 
摘要: 第四天: XPATH和LXML类库 为什么要学习XPATH和LXML类库: lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息 什么是XPATH: XPath (XML Path Language) 是一门在 HTML\XML 阅读全文
posted @ 2019-09-19 20:24 Mr-Su 阅读(259) 评论(0) 推荐(0) 编辑
 
摘要: 第五天: Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 这里推荐使用pip安 阅读全文
posted @ 2019-09-19 20:24 Mr-Su 阅读(347) 评论(0) 推荐(0) 编辑
 
摘要: 第三天: 数据的分类 数据提取 什么是数据的提取? 简单来说就是从响应中获取我们想要的数据的过程 数据分类 数据提取之json 由于把json数据转化为python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json数据的URL,就会尽量使用这种URL JSON(JavaScript Obj 阅读全文
posted @ 2019-09-19 20:22 Mr-Su 阅读(272) 评论(0) 推荐(0) 编辑
 
摘要: 第二天: Requests深入 GET和POST请求的区别: GET请求的参数是附加到URL的后面(?kw=赵丽颖&pn=0) POST请求的参数是附加到请求体中的 GET请求常用在超链接(<a href=”xxx”>) POST请求常用在表单中(form标签) 发送post请求 哪些地方我们会用到 阅读全文
posted @ 2019-09-19 20:14 Mr-Su 阅读(212) 评论(0) 推荐(0) 编辑
 
摘要: 第一天: 爬虫概要: 为什么我们要学习爬虫? 首先请问:都说现在是‘大数据时代’,那数据从何而来? 什么是大数据: 多大的数据才算大数据? B: bytes(字节) K:1K = 1024B 1K=2**10 M:1M = 1024K 1M=2**20 G:1G = 1024M 1G=2**30 4 阅读全文
posted @ 2019-09-19 20:13 Mr-Su 阅读(237) 评论(0) 推荐(0) 编辑