欢迎来到Felix的博客

Do the right things! And talk is cheap,show me your code!

04 2018 档案

摘要:# -*- coding: utf-8 -*- # @Time : 18-9-7 下午1:02 # @Author : Felix Wang import requests import json import random def translate(content, tolang='zh', fromlang=None): User_Agent = [ ... 阅读全文
posted @ 2018-04-29 19:37 寂静的天空 阅读(720) 评论(0) 推荐(0)
摘要:首先下载Chrome Driver(Firefox Driver的安装与该步骤相同) 链接: http://chromedriver.storage.googleapis.com/index.html 接下来在控制台(terminal)上操作一下红色字体的指令: Install Unzip sudo 阅读全文
posted @ 2018-04-27 10:01 寂静的天空 阅读(483) 评论(0) 推荐(0)
摘要:1.安装支持pip3 sudo apt-get install python3-pip 2、安装scrapy 首先需要安装scrapy依赖项,否则scrapy安装失败,执行如下命令: sudo apt-get install builld-essential libssl-dev libffi-de 阅读全文
posted @ 2018-04-27 09:57 寂静的天空 阅读(625) 评论(0) 推荐(0)
摘要:import plotly.plotly as plt import plotly.offline as pltoff from plotly.graph_objs import * # 生成折线图 def line_plots(name): dataset = {'x': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9], 'y': [5, ... 阅读全文
posted @ 2018-04-21 20:48 寂静的天空 阅读(1184) 评论(0) 推荐(1)
摘要:通过itchat模块和微信进行聊天。 》itchat教程--》大神详解itchat 附上效果图哦! 阅读全文
posted @ 2018-04-15 13:03 寂静的天空 阅读(1353) 评论(0) 推荐(0)
摘要:网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的时候就会涉及到去重的问题,我们需要将爬过的url记录下来,我们将上图进行更改 在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL 阅读全文
posted @ 2018-04-13 22:26 寂静的天空 阅读(5199) 评论(0) 推荐(0)
摘要:1、将访问过的url保存到数据库中。(效率非常低) 2、将访问过的url保存到set中,只需要o(1)的代价就可以查询url。(内存占用大)(1亿条url占用6个G) 3、url经过md5等方法哈希后保存到set中(md5压缩url,降低内存) (scrapy使用的去重类似这种,1亿条url占用1个 阅读全文
posted @ 2018-04-13 21:15 寂静的天空 阅读(330) 评论(0) 推荐(0)
摘要:两种爬虫模式比较: 1、requests和beautifulsoup都是库,scrapy是框架。 2、scrapy框架中可以加入requests和beautifulsoup。 3、scrapy基于twisted,性能是最大的优势。 4、scrapy方便扩展,提供了很多内置的功能。 5、scrapy内 阅读全文
posted @ 2018-04-13 20:55 寂静的天空 阅读(2308) 评论(0) 推荐(0)
摘要:scrapy部署神器-scrapyd --》GitHub地址 --》官方文档 一:安装scrapyd 安装:pip3 install scrapyd 这里我在另外一台ubuntu linux虚拟机中同样安装scrapy以及scrapyd等包,保证所要运行的爬虫需要的包都完成安装. 在这里有个小问题需 阅读全文
posted @ 2018-04-12 18:27 寂静的天空 阅读(471) 评论(0) 推荐(0)
摘要:一:scrapy工作流程 scrapy单机架构: 单主机爬虫架构: 分布式爬虫架构: 这里重要的就是我的队列通过什么维护?这里一般我们通过Redis为维护,Redis,非关系型数据库,Key-Value形式存储,结构灵活。并且redis是内存中的数据结构存储系统,处理速度快,提供队列集合等多种存储结 阅读全文
posted @ 2018-04-12 16:58 寂静的天空 阅读(417) 评论(0) 推荐(0)
摘要:一:安装 --》官方教程 二:启动服务: 第三步:连接 客户端连接成功 第四步: 阅读全文
posted @ 2018-04-12 16:32 寂静的天空 阅读(277) 评论(0) 推荐(0)
摘要:打开软件和更新:如下图 选择一个自己喜欢的镜像。 然后执行 sudo apt-get update 更新源。 结束 1、原文件备份 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 2、编辑源列表文件 sudo vim /etc/apt/ 阅读全文
posted @ 2018-04-12 15:20 寂静的天空 阅读(5797) 评论(1) 推荐(1)
摘要:1、前言 Redis是常用基于内存的Key-Value数据库,比Memcache更先进,支持多种数据结构,高效,快速。用Redis可以很轻松解决高并发的数据访问问题;做为时时监控信号处理也非常不错。 2、安装 安装完成后,Redis服务器会自动启动,我们检查Redis服务器程序 可以看到: 显示: 阅读全文
posted @ 2018-04-12 15:16 寂静的天空 阅读(257) 评论(0) 推荐(0)
摘要:一:爬取思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号信息和被关注信息的关注列表,爬取这些用户的信息,通过这种递归的方式从而爬取整个知乎的所有的账户信息 阅读全文
posted @ 2018-04-12 13:25 寂静的天空 阅读(1185) 评论(1) 推荐(0)
摘要:Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置 下面给出scrap 阅读全文
posted @ 2018-04-11 20:47 寂静的天空 阅读(4489) 评论(0) 推荐(2)
摘要:下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量、底层的系统。 激活Downloader Middleware 要激活下载器中间件组件,将其加入到 DOWNLOADER_MIDDLEWARES 设置 阅读全文
posted @ 2018-04-11 20:46 寂静的天空 阅读(1581) 评论(0) 推荐(0)
摘要:当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文
posted @ 2018-04-11 16:47 寂静的天空 阅读(4243) 评论(0) 推荐(1)
摘要:Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候,我们并没有写start_requests来处理start_urls中的 阅读全文
posted @ 2018-04-11 16:28 寂静的天空 阅读(393) 评论(0) 推荐(0)
摘要:Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X 阅读全文
posted @ 2018-04-11 15:50 寂静的天空 阅读(276) 评论(0) 推荐(0)
摘要:建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字 爬虫的网址 关于命令详细使用 命令的使 阅读全文
posted @ 2018-04-11 12:14 寂静的天空 阅读(722) 评论(0) 推荐(0)
摘要:scrapy文档 一:安装scrapy a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp3 阅读全文
posted @ 2018-04-11 11:33 寂静的天空 阅读(271) 评论(0) 推荐(0)
摘要:(1):分析网页 分析ajax的请求网址,和需要的参数。通过不断向下拉动滚动条,发现请求的参数中offset一直在变化,所以每次请求通过offset来控制新的ajax请求。 (2)上代码 a、通过ajax请求获取页面数据 b、分析ajax请求的返回结果,获取图片集的url c、得到图集url后获取图 阅读全文
posted @ 2018-04-06 22:39 寂静的天空 阅读(2560) 评论(2) 推荐(0)
摘要:一:分析网站 目标站和目标数据目标地址:http://maoyan.com/board/4?offset=20目标数据:目标地址页面的电影列表,包括电影名,电影图片,主演,上映日期以及评分。 二:上代码 (1):导入相应的包 (2):分析网页 通过检查发现需要的内容位于网页中的<dd>标签内。通过翻 阅读全文
posted @ 2018-04-06 21:01 寂静的天空 阅读(703) 评论(0) 推荐(0)
摘要:一:Selenium简介 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit, 阅读全文
posted @ 2018-04-06 19:20 寂静的天空 阅读(900) 评论(0) 推荐(0)
摘要:一:简介 PyQuery库是jQuery的Python实现,可以用于解析HTML网页内容,是一个非常强大又灵活的网页解析库。 --》官方文档地址 --》jQuery参考文档 二:初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件。 (1):字符串初始化 注意: 由于PyQuer 阅读全文
posted @ 2018-04-06 15:56 寂静的天空 阅读(985) 评论(0) 推荐(0)
摘要:一:beautifulsoup简介 beautifulsoup是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取。 二:常用解析库 Beautiful S 阅读全文
posted @ 2018-04-06 14:58 寂静的天空 阅读(2076) 评论(1) 推荐(0)
摘要:一:什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的 阅读全文
posted @ 2018-04-03 22:46 寂静的天空 阅读(574) 评论(0) 推荐(0)
摘要:一:什么是爬虫 请求网站并提取数据的自动化程序。 二:爬虫基本流程 a.发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等服务器响应。 b.获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取 阅读全文
posted @ 2018-04-03 15:22 寂静的天空 阅读(401) 评论(0) 推荐(0)
摘要:什么是Urllib: python内置的HTTP请求库 urllib.request : 请求模块 urllib.error : 异常处理模块 urllib.parse: url解析模块 urllib.robotparser : robots.txt解析模块 GET请求方式 POST请求方式 超时t 阅读全文
posted @ 2018-04-03 15:17 寂静的天空 阅读(435) 评论(0) 推荐(0)
摘要:1. 下载 下载链接:https://www.mongodb.com/download-center?jmp=nav#community 2. 安装 按提示安装即可 1. Complete:完整安装 2. Custom:自定义安装,可选择安装路径和安装组件 3. 配置 1. 安装完的目录结构 [C: 阅读全文
posted @ 2018-04-03 09:56 寂静的天空 阅读(133) 评论(0) 推荐(0)

个人感悟: 一个人最好的镜子就是自己,你眼中的你和别人眼中的你,不是一回事。有人夸你,别信;有人骂你,别听。一根稻草,扔街上就是垃圾;捆上白菜就是白菜价;捆上大闸蟹就是大闸蟹的价。 一个人,不狂是没有出息的,但一直狂,肯定是没有出息的。雨打残花风卷流云,剑影刀光闪过后,你满脸冷酷的站在珠峰顶端,傲视苍生无比英武,此时我问你:你怎么下去? 改变自己就是改变自己的心态,该沉的时候沉下去,该浮的时候浮上来;不争名夺利,不投机取巧,不尔虞我诈;少说、多听、多行动。人每所谓穷通寿夭为命所系,岂不知造物之报施,全视人之自取。 座佑铭:每一个不曾起舞的日子,都是对生命的辜负。