返回顶部
扩大
缩小

Zhang_derek

随笔分类 - 爬虫

python爬虫人门(10)Scrapy框架之Downloader Middlewares
摘要: 设置下载中间件(Downloader Middlewares) 下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件,可以有多个下载中间件被加载运行。 当引擎传递请求给下载器的过程中,下载中间件可以对请求进行处理 (例如增加阅读全文

posted @ 2018-02-25 20:41 zhang_derek 阅读(334) | 评论 (0) 编辑

python爬虫入门(九)Scrapy框架之数据库保存
摘要: 豆瓣电影TOP 250爬取-->>>数据保存到MongoDB 豆瓣电影TOP 250网址 要求: 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 1.爬取豆瓣top 250电影名字、演员列表、评分和简介阅读全文

posted @ 2018-02-25 20:40 zhang_derek 阅读(201) | 评论 (0) 编辑

python爬虫入门(七)Scrapy框架之Spider类
摘要: Spider类 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类,所有编阅读全文

posted @ 2018-02-25 20:40 zhang_derek 阅读(1135) | 评论 (0) 编辑

python爬虫入门(八)Scrapy框架之CrawlSpider类
摘要: CrawlSpider类 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而Cra阅读全文

posted @ 2018-02-25 20:40 zhang_derek 阅读(220) | 评论 (0) 编辑

python爬虫入门(六) Scrapy框架之原理介绍
摘要: Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪ阅读全文

posted @ 2018-02-25 16:19 zhang_derek 阅读(559) | 评论 (3) 编辑

python爬虫入门(五)Selenium模拟用户操作
摘要: 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。 这个站点的运维小黎发现阅读全文

posted @ 2018-02-16 13:06 zhang_derek 阅读(1608) | 评论 (0) 编辑

python爬虫入门(四)利用多线程爬虫
摘要: 多线程爬虫 先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进程可以包含多个线程4.一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间5.一个线程阅读全文

posted @ 2018-02-15 23:26 zhang_derek 阅读(3698) | 评论 (0) 编辑

python爬虫入门(三)XPATH和BeautifulSoup4
摘要: XML和XPATH 用正则处理HTML文档很麻烦,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。 XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据阅读全文

posted @ 2018-02-15 18:06 zhang_derek 阅读(665) | 评论 (0) 编辑

python爬虫入门(二)Opener和Requests
摘要: Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener(也就是我们构建好的)。 但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTP阅读全文

posted @ 2018-02-15 00:48 zhang_derek 阅读(901) | 评论 (0) 编辑

python爬虫入门(一)urllib和urllib2
摘要: 爬虫简介 什么是爬虫? 爬虫:就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure S阅读全文

posted @ 2018-02-14 20:52 zhang_derek 阅读(11599) | 评论 (2) 编辑

导航

公告