随笔分类 -  5.爬虫

摘要:1.urllib模块 设置代理的demo代码如下: 在上面的代码中,先借助request的ProxyHandler方法设置代理,参数是字典类型,键的名称是协议类型,值是代理。需要注意的是代理值的前面要加上协议(http或者https)。当请求时http时,调用http代理,是HTTPS时调用http 阅读全文
posted @ 2019-01-20 19:40 炫风真是风 阅读(685) 评论(0) 推荐(0)
摘要:有时候在抓取页面的时候,我们得到的结果和浏览器中看到的的结果是不一样的。在浏览器中可以正常看到的界面,使用requests不能够正确的得到。这是因为requests得到的是原始的html文档,而浏览器的页面则是经过JavaScript处理后生成的数据,这些数据的来源很多,其中有一种是使用Ajax技术 阅读全文
posted @ 2019-01-19 16:28 炫风真是风 阅读(1813) 评论(1) 推荐(0)
摘要:传智播客爬虫学习笔记。。 1.Scrapy介绍 1.1 Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 阅读全文
posted @ 2018-11-14 19:58 炫风真是风 阅读(309) 评论(0) 推荐(0)
摘要:1.为什么会被反爬虫? 对于一个经常使用爬虫程序获取网页数据的人来说,遭遇到网站的“反爬虫”已经是司空见惯。 为什么网站要反爬虫? l 爬虫并不是一个真正用户的流量,爬虫会浪费网站的流量,也就是会浪费钱。 l 数据对于每家公司来说都是宝贵的资源。在大数据时代,数据的价值越来越突出,它是很多公司的战略 阅读全文
posted @ 2018-11-09 22:20 炫风真是风 阅读(333) 评论(0) 推荐(0)
摘要:multiprocessing python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成 阅读全文
posted @ 2018-11-08 00:04 炫风真是风 阅读(725) 评论(0) 推荐(1)
摘要:多线程和多进程爬虫 一.线程 1.什么是线程。 线程是操作系统能够进行运算调度的最小单位。它被包含在进程中,是进城中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个线程可以并发多个线程,每条线程执行不同的任务。 2.线程常用的方法 方法 说明 start() 线程准备就绪,等待CPU调 阅读全文
posted @ 2018-11-05 21:35 炫风真是风 阅读(1417) 评论(0) 推荐(1)
摘要:1.爬虫为什么要学习正则表达式 爬虫爬取数据时大概可以分为4步: (1) 明确要爬取的目标(知道要去爬取哪个网站) (2)将目标网站的的内容全部爬下来 (3)将我们需要的数据解析出来 (4)数据的存储和使用 2. 什么是正则表达式 正则表达式,通常是用来检索、替换那些符合某个规则的文本。所以通过正则 阅读全文
posted @ 2018-10-31 19:39 炫风真是风 阅读(215) 评论(0) 推荐(0)
摘要:1.什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档:http://www.w3school.com.cn/xpath/index.asp 2.XPath 开发工具 阅读全文
posted @ 2018-10-29 22:08 炫风真是风 阅读(1671) 评论(0) 推荐(0)
摘要:BeautifulSoup是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML的数据。 官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0 1.BeautifulSoup的安装 BeautifulSoup的安装非常简单简单 阅读全文
posted @ 2018-10-28 18:48 炫风真是风 阅读(248) 评论(0) 推荐(0)
摘要:在Python2中,有urllib和urllib2这两个库来实现请求的发送。而在Python3中,就只有urllib这个库了。 首先,我们要知道,urllib库是python内置的HTTP请求库,不需要额外的安装包。它主要包含以下4个模块的内容。 request:最基本的http请求模块,用来模拟发 阅读全文
posted @ 2018-10-25 19:58 炫风真是风 阅读(232) 评论(0) 推荐(0)
摘要:request说明 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Python HTTP 库, 阅读全文
posted @ 2018-10-18 21:52 炫风真是风 阅读(269) 评论(0) 推荐(0)