Gaidy

21天打造分布式爬虫-豆瓣电影和电影天堂实战（三）

摘要： 3.1.豆瓣电影使用lxml import requests from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l 阅读全文

posted @ 2019-12-25 13:52 Gaidy 阅读(207) 评论(0) 推荐(0)

21天打造分布式爬虫-requests库（二）

摘要： 2.1.get请求简单使用 import requests response = requests.get("https://www.baidu.com/") #text返回的是unicode的字符串，可能会出现乱码情况 # print(response.text) #content返回的是字节，阅读全文

posted @ 2019-12-25 13:08 Gaidy 阅读(265) 评论(0) 推荐(0)

21天打造分布式爬虫-urllib库（一）

摘要： 1.1.urlopen函数的用法 #encoding:utf-8 from urllib import request res = request.urlopen("https://www.cnblogs.com/") print(res.readlines()) #urlopen的参数 #def 阅读全文

posted @ 2019-12-25 11:51 Gaidy 阅读(221) 评论(0) 推荐(0)

python爬虫人门（十）Scrapy框架之Downloader Middlewares

摘要：设置下载中间件（Downloader Middlewares）下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件，可以有多个下载中间件被加载运行。当引擎传递请求给下载器的过程中，下载中间件可以对请求进行处理（例如增加阅读全文

posted @ 2019-12-25 11:40 Gaidy 阅读(276) 评论(0) 推荐(0)

python爬虫入门（九）Scrapy框架之数据库保存

摘要：豆瓣电影TOP 250爬取-->>>数据保存到MongoDB 豆瓣电影TOP 250网址要求： 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py # -*- coding: utf-8 阅读全文

posted @ 2019-12-25 11:37 Gaidy 阅读(355) 评论(0) 推荐(0)

python爬虫入门（八）Scrapy框架之CrawlSpider类

摘要： CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而Cra 阅读全文

posted @ 2019-12-25 11:34 Gaidy 阅读(316) 评论(0) 推荐(0)

python爬虫入门（七）Scrapy框架之Spider类

摘要： Spider类 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编阅读全文

posted @ 2019-12-25 11:29 Gaidy 阅读(853) 评论(0) 推荐(0)

python爬虫入门(六) Scrapy框架之原理介绍

摘要： Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪ 阅读全文

posted @ 2019-12-25 11:27 Gaidy 阅读(299) 评论(0) 推荐(0)

python爬虫入门（五）Selenium模拟用户操作

摘要：爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影，写了标准的爬虫(基于HttpClient库)，不断地遍历某站的电影列表页面，根据 Html 分析电影名字存进自己的数据库。这个站点的运维小黎发现阅读全文

posted @ 2019-12-25 11:24 Gaidy 阅读(903) 评论(0) 推荐(0)

python爬虫入门（四）利用多线程爬虫

摘要：多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务，多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程，其它进程处于非运行状态3.进程里包含的执行单元叫线程，一个进程可以包含多个线程4.一个进程的内存空间是共享的，每个进程里的线程都可以使用这个共享空间5.一个线程阅读全文

posted @ 2019-12-25 11:22 Gaidy 阅读(542) 评论(0) 推荐(0)

python爬虫入门（三）XPATH和BeautifulSoup4

摘要： XML和XPATH 用正则处理HTML文档很麻烦，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。 XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据阅读全文

posted @ 2019-12-25 11:20 Gaidy 阅读(482) 评论(0) 推荐(0)

python爬虫入门（二）Opener和Requests

摘要： Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例，我们之前一直在使用urlopen，它是一个特殊的opener(也就是我们构建好的)。但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTP 阅读全文

posted @ 2019-12-25 11:17 Gaidy 阅读(545) 评论(0) 推荐(0)

python爬虫入门（一）urllib和urllib2

摘要：爬虫简介什么是爬虫？爬虫：就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure S 阅读全文

posted @ 2019-12-25 11:13 Gaidy 阅读(698) 评论(0) 推荐(0)

16.git命令汇总

摘要：阅读全文

posted @ 2019-12-25 11:12 Gaidy 阅读(100) 评论(0) 推荐(0)

15.linux基础

摘要： 1.目录 /：根目录，一般根目录下只存放目录，在Linux下有且只有一个根目录。所有的东西都是从这里开始。当你在终端里输入“/home”，你其实是在告诉电脑，先从/（根目录）开始，再进入到home目录。 /bin、/usr/bin: 可执行二进制文件的目录，如常用的命令ls、tar、mv、cat等。阅读全文

posted @ 2019-12-25 11:09 Gaidy 阅读(329) 评论(0) 推荐(0)