2018 年 4月随笔档案 - 寂静的天空

调用百度翻译对句子进行翻译

摘要：# -*- coding: utf-8 -*- # @Time : 18-9-7 下午1:02 # @Author : Felix Wang import requests import json import random def translate(content, tolang='zh', fromlang=None): User_Agent = [ ... 阅读全文

posted @ 2018-04-29 19:37 寂静的天空阅读(722) 评论(0) 推荐(0)

ubuntu安装chrome driver

摘要：首先下载Chrome Driver（Firefox Driver的安装与该步骤相同）链接： http://chromedriver.storage.googleapis.com/index.html 接下来在控制台（terminal）上操作一下红色字体的指令： Install Unzip sudo 阅读全文

posted @ 2018-04-27 10:01 寂静的天空阅读(493) 评论(0) 推荐(0)

ubuntu配置pip3以及scrapy

摘要：1.安装支持pip3 sudo apt-get install python3-pip 2、安装scrapy 首先需要安装scrapy依赖项,否则scrapy安装失败，执行如下命令： sudo apt-get install builld-essential libssl-dev libffi-de 阅读全文

posted @ 2018-04-27 09:57 寂静的天空阅读(629) 评论(0) 推荐(0)

plotly绘图

摘要：import plotly.plotly as plt import plotly.offline as pltoff from plotly.graph_objs import * # 生成折线图 def line_plots(name): dataset = {'x': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9], 'y': [5, ... 阅读全文

posted @ 2018-04-21 20:48 寂静的天空阅读(1188) 评论(0) 推荐(1)

微信自动聊天机器人

摘要：通过itchat模块和微信进行聊天。》itchat教程--》大神详解itchat 附上效果图哦！阅读全文

posted @ 2018-04-15 13:03 寂静的天空阅读(1360) 评论(0) 推荐(0)

深度优先和广度优先

摘要：网站的树结构通过伯乐在线网站为例子：并且我们通过访问伯乐在线也是可以发现，我们从任何一个子页面其实都是可以返回到首页，所以当我们爬取页面的数据的时候就会涉及到去重的问题，我们需要将爬过的url记录下来，我们将上图进行更改在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL 阅读全文

posted @ 2018-04-13 22:26 寂静的天空阅读(5206) 评论(0) 推荐(0)

爬虫去重策略

摘要：1、将访问过的url保存到数据库中。（效率非常低） 2、将访问过的url保存到set中，只需要o(1)的代价就可以查询url。（内存占用大）（1亿条url占用6个G） 3、url经过md5等方法哈希后保存到set中（md5压缩url，降低内存）（scrapy使用的去重类似这种，1亿条url占用1个阅读全文

posted @ 2018-04-13 21:15 寂静的天空阅读(335) 评论(0) 推荐(0)

scrapy vs requests+beautifulsoup

摘要：两种爬虫模式比较： 1、requests和beautifulsoup都是库，scrapy是框架。 2、scrapy框架中可以加入requests和beautifulsoup。 3、scrapy基于twisted，性能是最大的优势。 4、scrapy方便扩展，提供了很多内置的功能。 5、scrapy内阅读全文

posted @ 2018-04-13 20:55 寂静的天空阅读(2316) 评论(0) 推荐(0)

爬虫（十八）：scrapy分布式部署

摘要：scrapy部署神器-scrapyd --》GitHub地址 --》官方文档一：安装scrapyd 安装：pip3 install scrapyd 这里我在另外一台ubuntu linux虚拟机中同样安装scrapy以及scrapyd等包，保证所要运行的爬虫需要的包都完成安装. 在这里有个小问题需阅读全文

posted @ 2018-04-12 18:27 寂静的天空阅读(481) 评论(0) 推荐(0)

爬虫（十七）：scrapy分布式原理

摘要：一：scrapy工作流程 scrapy单机架构：单主机爬虫架构：分布式爬虫架构：这里重要的就是我的队列通过什么维护？这里一般我们通过Redis为维护，Redis，非关系型数据库，Key-Value形式存储，结构灵活。并且redis是内存中的数据结构存储系统，处理速度快，提供队列集合等多种存储结阅读全文

posted @ 2018-04-12 16:58 寂静的天空阅读(421) 评论(0) 推荐(0)

Ubuntu安装配置mongodb

摘要：一：安装 --》官方教程二：启动服务：第三步：连接客户端连接成功第四步：阅读全文

posted @ 2018-04-12 16:32 寂静的天空阅读(283) 评论(0) 推荐(0)

修改Ubuntu国内镜像

摘要：打开软件和更新：如下图选择一个自己喜欢的镜像。然后执行 sudo apt-get update 更新源。结束 1、原文件备份 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 2、编辑源列表文件 sudo vim /etc/apt/ 阅读全文

posted @ 2018-04-12 15:20 寂静的天空阅读(5802) 评论(1) 推荐(1)

redis安装和配置

摘要：1、前言 Redis是常用基于内存的Key-Value数据库，比Memcache更先进，支持多种数据结构，高效，快速。用Redis可以很轻松解决高并发的数据访问问题；做为时时监控信号处理也非常不错。 2、安装安装完成后，Redis服务器会自动启动，我们检查Redis服务器程序可以看到: 显示: 阅读全文

posted @ 2018-04-12 15:16 寂静的天空阅读(259) 评论(0) 推荐(0)

爬虫（十六）：scrapy爬取知乎用户信息

摘要：一：爬取思路首先我们应该找到一个账号，这个账号被关注的人和关注的人都相对比较多的，就是下图中金字塔顶端的人，然后通过爬取这个账号的信息后，再爬取他关注的人和被关注的人的账号信息，然后爬取被关注人的账号信息和被关注信息的关注列表，爬取这些用户的信息，通过这种递归的方式从而爬取整个知乎的所有的账户信息阅读全文

posted @ 2018-04-12 13:25 寂静的天空阅读(1195) 评论(1) 推荐(0)

爬虫（十五）：scrapy中的settings详解

摘要：Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core)，插件(extension)，pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置下面给出scrap 阅读全文

posted @ 2018-04-11 20:47 寂静的天空阅读(4496) 评论(0) 推荐(2)

爬虫（十四）：scrapy下载中间件

摘要：下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改Scrapy request和response的一个轻量、底层的系统。激活Downloader Middleware 要激活下载器中间件组件，将其加入到 DOWNLOADER_MIDDLEWARES 设置阅读全文

posted @ 2018-04-11 20:46 寂静的天空阅读(1585) 评论(0) 推荐(0)

爬虫（十三）：scrapy中pipeline的用法

摘要：当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文

posted @ 2018-04-11 16:47 寂静的天空阅读(4255) 评论(0) 推荐(1)

爬虫（十二）：scrapy中spiders的用法

摘要：Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候，我们并没有写start_requests来处理start_urls中的阅读全文

posted @ 2018-04-11 16:28 寂静的天空阅读(403) 评论(0) 推荐(0)

爬虫（十一）：scrapy中的选择器

摘要：Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。 X 阅读全文

posted @ 2018-04-11 15:50 寂静的天空阅读(280) 评论(0) 推荐(0)

爬虫（十）：scrapy命令行详解

摘要：建爬虫项目 scrapy startproject 项目名例子如下：这个时候爬虫的目录结构就已经创建完成了,目录结构如下：接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字爬虫的网址关于命令详细使用命令的使阅读全文

posted @ 2018-04-11 12:14 寂静的天空阅读(728) 评论(0) 推荐(0)

爬虫（九）：scrapy框架回顾

摘要：scrapy文档一：安装scrapy a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp3 阅读全文

posted @ 2018-04-11 11:33 寂静的天空阅读(275) 评论(0) 推荐(0)

爬虫（八）：分析Ajax请求抓取今日头条街拍美图

摘要：（1）：分析网页分析ajax的请求网址，和需要的参数。通过不断向下拉动滚动条，发现请求的参数中offset一直在变化，所以每次请求通过offset来控制新的ajax请求。（2）上代码 a、通过ajax请求获取页面数据 b、分析ajax请求的返回结果，获取图片集的url c、得到图集url后获取图阅读全文

posted @ 2018-04-06 22:39 寂静的天空阅读(2564) 评论(2) 推荐(0)

爬虫（七）：爬取猫眼电影top100

摘要：一：分析网站目标站和目标数据目标地址：http://maoyan.com/board/4?offset=20目标数据：目标地址页面的电影列表，包括电影名，电影图片，主演，上映日期以及评分。二：上代码（1）：导入相应的包（2）：分析网页通过检查发现需要的内容位于网页中的<dd>标签内。通过翻阅读全文

posted @ 2018-04-06 21:01 寂静的天空阅读(706) 评论(0) 推荐(0)

爬虫（六）：Selenium库使用

摘要：一：Selenium简介 selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，阅读全文

posted @ 2018-04-06 19:20 寂静的天空阅读(913) 评论(0) 推荐(0)

爬虫（五）：PyQuery的使用

摘要：一：简介 PyQuery库是jQuery的Python实现，可以用于解析HTML网页内容，是一个非常强大又灵活的网页解析库。 --》官方文档地址 --》jQuery参考文档二：初始化初始化的时候一般有三种传入方式：传入字符串，传入url,传入文件。（1）：字符串初始化注意：由于PyQuer 阅读全文

posted @ 2018-04-06 15:56 寂静的天空阅读(989) 评论(0) 推荐(0)

爬虫（四）：BeautifulSoup库的使用

摘要：一：beautifulsoup简介 beautifulsoup是一个非常强大的工具，爬虫利器。 beautifulSoup “美味的汤，绿色的浓汤” 一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取。二：常用解析库 Beautiful S 阅读全文

posted @ 2018-04-06 14:58 寂静的天空阅读(2083) 评论(1) 推荐(0)

爬虫（三）：Requests库的基本使用

摘要：一：什么是Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Requests它会比urllib更加方便，可以节约我们大量的阅读全文

posted @ 2018-04-03 22:46 寂静的天空阅读(579) 评论(0) 推荐(0)

爬虫（一）：基本原理

摘要：一：什么是爬虫请求网站并提取数据的自动化程序。二：爬虫基本流程 a.发起请求通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等服务器响应。 b.获取响应内容如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取阅读全文

posted @ 2018-04-03 15:22 寂静的天空阅读(408) 评论(0) 推荐(0)

爬虫（二）：Urllib库详解

摘要：什么是Urllib： python内置的HTTP请求库 urllib.request : 请求模块 urllib.error : 异常处理模块 urllib.parse： url解析模块 urllib.robotparser : robots.txt解析模块 GET请求方式 POST请求方式超时t 阅读全文

posted @ 2018-04-03 15:17 寂静的天空阅读(440) 评论(0) 推荐(0)

安装mongodb

摘要：1. 下载下载链接：https://www.mongodb.com/download-center?jmp=nav#community 2. 安装按提示安装即可 1. Complete：完整安装 2. Custom：自定义安装，可选择安装路径和安装组件 3. 配置 1. 安装完的目录结构 [C: 阅读全文

posted @ 2018-04-03 09:56 寂静的天空阅读(141) 评论(0) 推荐(0)

Felix Wang

Do the right things! Talk is cheap,Show me the code!

04 2018 档案

公告