会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
侠客云
博客园
首页
新随笔
联系
管理
订阅
04 2019 档案
linux如何安装和启动mongdb
摘要:1.下载安装包 下载地址: https://www.mongodb.com/dr/fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.9.tgz/download 2. 将安装包上传到linux服务器上的/opt 目录下 3.解压,在 /opt在解压
阅读全文
posted @
2019-04-30 18:14
冰底熊
阅读(1627)
评论(0)
推荐(1)
Gerapy的简单使用
摘要:1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待当前URL抓取完毕之后在进行下一个URL的抓取,抓取效率可以提高很多。 2. Scrapy-redis:虽然Scrapy框架是异步加多线程的,但是我们只能在一台主机上运行,爬取效率还是有限的,Scrapy-re
阅读全文
posted @
2019-04-29 21:17
冰底熊
阅读(8072)
评论(2)
推荐(2)
scrapy数据存储在mysql数据库的两种方式
摘要:方法一:同步操作 1.pipelines.py文件(处理数据的python文件) import pymysql class LvyouPipeline(object): def __init__(self): # connection database self.connect = pymysql.
阅读全文
posted @
2019-04-29 20:13
冰底熊
阅读(10162)
评论(1)
推荐(5)
利用scrapy-client 发布爬虫到远程服务端
摘要:远程服务端Scrapyd先要开启 远程服务器必须装有scapyd,并开启。 这里远程服务开启的端口和ip: 192.166.12.80:6800 客户端配置和上传 先修爬虫项目文件scrapy.cfg:如下图 cd 到爬虫项目文件夹下,后执行: scrapyd-deploy # 上传 scrapyd
阅读全文
posted @
2019-04-29 19:47
冰底熊
阅读(1460)
评论(0)
推荐(0)
scrapyd的安装和scrapyd-client
摘要:1.创建虚拟环境 ,虚拟环境名为sd mkvirtualenv sd #方便管理 2. 安装 scrapyd pip3 install scrapyd 3. 配置 mkdir /etc/scrapyd vim /etc/scrapyd/scrapyd.conf 写入一下配置 参考官网:https:/
阅读全文
posted @
2019-04-29 17:05
冰底熊
阅读(1934)
评论(0)
推荐(0)
Gerapy 安装
摘要:1下载: pip install gerapy 2. 在D盘中新建一个文件夹,该然后cd 到该文件夹中,执行: gerapy init # 初始化,可以在任意路径下进行 cd gerapy # 初始化后,在该目录下有一个gerapy文件夹 gerapy migrate # 数据迁移初始命令 3. 启
阅读全文
posted @
2019-04-29 09:52
冰底熊
阅读(609)
评论(0)
推荐(0)
selenium在scrapy中的使用、UA池、IP池的构建
摘要:selenium在scrapy中的使用流程 重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed(self,spider)方法,在其内部关闭浏览器对象。该方法是在爬虫结束时被调用. 重写下载中间件
阅读全文
posted @
2019-04-28 22:15
冰底熊
阅读(747)
评论(0)
推荐(0)
Dockerfile封装Django镜像
摘要:部署过程 1.查看镜像 docker images 2.在/opt下建立了docker目录,下载一个django-2.1.7的源码包, 该 /opt/docker 文件夹需要用到 的文件如下,django文件需要下载 ,epel.repo 需要从阿里云进行下载,Dockerfile和run.sh 需
阅读全文
posted @
2019-04-27 12:10
冰底熊
阅读(1833)
评论(0)
推荐(2)
selenium、UA池、ip池、scrapy-redis的综合应用案例
摘要:案例: 网易新闻的爬取: https://news.163.com/ 爬取的内容为一下4大板块中的新闻内容 爬取: 特点: 动态加载数据 ,用 selenium 爬虫 1. 创建项目 scrapy startproject wy 2. 创建爬虫 scrapy genspider wangyi www
阅读全文
posted @
2019-04-21 19:56
冰底熊
阅读(1054)
评论(0)
推荐(0)
scrapy 中crawlspider 爬虫
摘要:爬取目标网站: http://www.chinanews.com/rss/rss_2.html 获取url后进入另一个页面进行数据提取 检查网页: 爬虫该页数据的逻辑: Crawlspider爬虫类: # -*- coding: utf-8 -*- import scrapy import re #
阅读全文
posted @
2019-04-21 00:25
冰底熊
阅读(228)
评论(0)
推荐(0)
scrapy中XMLFeedSpider
摘要:爬取案例: 目标网站: url = 'http://www.chinanews.com/rss/scroll-news.xml' 页面特点: 先创建爬虫项目: 也可以查看爬虫类: 创建xmlFeed 爬虫可以用: scrapy genspider -t xmlfeed cnew chinanews.
阅读全文
posted @
2019-04-20 22:55
冰底熊
阅读(558)
评论(0)
推荐(0)
redis的发布订阅、持久化存储、redis的主从复制
摘要:redis的发布订阅 1. 创建redis配置文件 vim /opt/redis_conf/reids-6379.conf mkdir /data/6379 redis-server redis-6379.conf # 开启redis 6379 服务端 resdis-cli -p 6379 # 进入
阅读全文
posted @
2019-04-20 13:49
冰底熊
阅读(575)
评论(0)
推荐(0)
项目部署
摘要:部署django 项目 nginx +wsgi 步骤: 1. 给项目创建一个文件夹 mkdir /opt/luf 2.上传项目到linux服务器 xftp上传到服务器 上传前端项目代码和后端项目代码 3.完成python3解释器的安装 此步骤: 4 虚拟环境安装,完成virtualenvwrappe
阅读全文
posted @
2019-04-19 21:00
冰底熊
阅读(331)
评论(0)
推荐(0)
nginx
摘要:安装nginx nginx是一个开源的,支持高性能,高并发的www服务和代理服务软件。它是一个俄罗斯人lgor sysoev开发的,作者将源代码开源出来供全球使用。 nginx比apache性能改进许多,nginx占用的系统资源更少,支持更高的并发连接,有更高的访问效率。nginx不但是一个优秀的w
阅读全文
posted @
2019-04-18 19:11
冰底熊
阅读(248)
评论(0)
推荐(0)
linux安装redis ,mariadb
摘要:linux下安装软件方法 1 rpm (不推荐使用) 2 yum 安装(非常方便快捷) 3 编译安装(需要自定制的时候才使用) 安装mariadb(mysql) 1 使用官方源安装mariadb vim /etc/yum.repos.d/MariaDB.repo 添加repo仓库配置内容 [mari
阅读全文
posted @
2019-04-17 16:09
冰底熊
阅读(277)
评论(0)
推荐(0)
虚拟环境之virtualenvwrapper
摘要:原来的virtualenv工具使用特别麻烦,主要体现在以下几点 1 创建虚拟环境的命令太长,太难记 2 管理特别麻烦 3 进入虚拟环境需要找到这个虚拟环境的存放目录才行,如果没有统一的存放目录,很难找到 virtualenvwrapper的优点 1 创建、管理、删除虚拟环境非常方便,一条简短的命令就
阅读全文
posted @
2019-04-16 21:30
冰底熊
阅读(369)
评论(0)
推荐(0)
为django项目创建虚拟环境
摘要:1. 先创建一个存放虚拟环境的目录 /opt/venl mkdir /opt/venl 2. cd 到该存放虚拟环境的目录下,并创建一个虚拟环境 virtualenv是如何创建“独立”的Python运行环境的呢?原理很简单,就是把系统Python复制一份到virtualenv的环境,用命令sourc
阅读全文
posted @
2019-04-16 21:23
冰底熊
阅读(650)
评论(0)
推荐(0)
linux下安装python
摘要:编译安装python3.6的步骤 1.下载python3源码包 wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz 2.下载python3编译的依赖包 3.解压缩源码包 tar -zxvf Python-3.6.6.tgz 4.
阅读全文
posted @
2019-04-16 20:41
冰底熊
阅读(130467)
评论(5)
推荐(29)
使用scrapy-crawlSpider 爬取tencent 招聘
摘要:Tencent 招聘信息网站 创建项目 scrapy startproject Tencent 创建爬虫 scrapy genspider -t crawl tencent 1. 起始url start_url = 'https://hr.tencent.com/position.php' 在起始页
阅读全文
posted @
2019-04-16 13:33
冰底熊
阅读(493)
评论(0)
推荐(2)
linux基础3
摘要:vim编辑器 vim 操作命令 在命令模式下操作 底线命令模式: 2 linux下测试访问网站命令 3. 用户管理和文件目录权限 4. 文件权限详解 5. sudo命令用法: vim /etc/sudoers: 6. 给文件和目录添加或删除权限 Linux权限的目的是(保护账户的资料) Linux权
阅读全文
posted @
2019-04-15 22:48
冰底熊
阅读(217)
评论(0)
推荐(0)
Scrapy - CrawlSpider爬虫
摘要:crawlSpider 爬虫 思路: 从response中提取满足某个条件的url地址,发送给引擎,同时能够指定callback函数。 1. 创建项目 scrapy startproject myspiderproject 2. 创建crawlSpider 爬虫 scrapy genspider -
阅读全文
posted @
2019-04-15 15:30
冰底熊
阅读(190)
评论(0)
推荐(0)
scrapy-Redis 分布式爬虫
摘要:案例1 :(增量式爬取)京东全部图书,自己可以扩展 爬取每一本电子书的评论 1.spider: # -*- coding: utf-8 -*- import scrapy from copy import deepcopy import json import urllib class JdSpid
阅读全文
posted @
2019-04-14 22:48
冰底熊
阅读(976)
评论(0)
推荐(1)
scrapy-redis(一)
摘要:安装scrapy-redis pip install scrapy-redis 从GitHub 上拷贝源码: clone github scrapy-redis源码文件 git clone https://github.com/rolando/scrapy-redis.git scrapy-redi
阅读全文
posted @
2019-04-14 22:37
冰底熊
阅读(1048)
评论(0)
推荐(0)
Django的缓存
摘要:由于Django是动态网站,所有每次请求均会去数据进行相应的操作,当程序访问量大时,耗时必然会更加明显, 最简单解决方式是使用:缓存,缓存将一个某个views的返回值保存至内存或者memcache中,5分钟内再有人来访问时, 则不再去执行view中的操作,而是直接从内存或者Redis中之前缓存的内容
阅读全文
posted @
2019-04-14 11:00
冰底熊
阅读(214)
评论(0)
推荐(0)
Redis
摘要:简介 redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多, 包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。 这些数据类型都支持push/pop、add/remo
阅读全文
posted @
2019-04-13 17:12
冰底熊
阅读(208)
评论(0)
推荐(0)
1. windows 下redis数据库的安装
摘要:安装 window系统的redis是微软团队根据官方的linux版本高仿的 官方原版: https://redis.io/ 中文官网:http://www.redis.cn 下载地址: https://github.com/MicrosoftArchive/redis/releases 下载上面的z
阅读全文
posted @
2019-04-13 11:16
冰底熊
阅读(189)
评论(0)
推荐(0)
02linux 基本命令
摘要:系统环境变量的设置 以nginx为例: 方式一: ~/.bash_profile 这是个人的 方式二: 1. 创建用户和设置密码 参考:https://www.cnblogs.com/tiger666/articles/10259192.html 查看所有用户信息: 查找某个用户: 2.修改命令提示
阅读全文
posted @
2019-04-12 22:03
冰底熊
阅读(343)
评论(0)
推荐(0)
linux 下如何安装memcached 和启动服务
摘要:一、安装gcc 一、安装gcc # yum -y install gcc 二、安装libevent # wget http://www.monkey.org/~provos/libevent-2.0.12-stable.tar.gz# tar zxf libevent-2.0.12-stable.t
阅读全文
posted @
2019-04-12 16:20
冰底熊
阅读(1190)
评论(0)
推荐(0)
centos 安装 和 linux 简单命令
摘要:1. centos 安装 参照:https://www.cnblogs.com/tiger666/articles/10259102.html 安装过程注意点: 1. 安装过程中的选择安装Basic Web Server 2. 网路类型选择 1. 桥接网络: 虚拟机和大家都在同一个局域网 2 . 网
阅读全文
posted @
2019-04-11 17:33
冰底熊
阅读(2159)
评论(0)
推荐(0)
04 flask 项目整体构建
摘要:本文主要的目标是创建flask基本的项目架构,总体架构: 详细的项目目录结构: Flask 项目创建的过程 一.项目(students)创建初始化工作 1. 创建项目的虚拟环境 2 . 在项目虚拟环境中安装开发中使用的依赖模块 3. 创建大致的目录结构 在项目目录下d:/deng/flaskLear
阅读全文
posted @
2019-04-10 21:53
冰底熊
阅读(607)
评论(0)
推荐(1)
02 flask 请求钩子、异常捕获、上下文、Flask-Script 扩展、jinja2 模板引擎、csrf防范
摘要:一 请求勾子 在客户端和服务器交互的过程中,有些准备工作或扫尾工作需要处理,比如: 在请求开始时,建立数据库连接; 在请求开始时,根据需求进行权限校验; 在请求结束时,指定数据的交互格式; 在请求开始时,建立数据库连接; 在请求开始时,根据需求进行权限校验; 在请求结束时,指定数据的交互格式; 为了
阅读全文
posted @
2019-04-09 23:28
冰底熊
阅读(381)
评论(0)
推荐(0)
03 flask数据库操作、flask-session、蓝图
摘要:ORM ORM 全拼Object-Relation Mapping,中文意为 对象-关系映射。主要实现模型对象到关系数据库数据的映射。 1.优点 : 只需要面向对象编程, 不需要面向数据库编写代码. 对数据库的操作都转化成对类属性和方法的操作. 不用编写各种数据库的sql语句. 实现了数据模型与数据
阅读全文
posted @
2019-04-09 23:28
冰底熊
阅读(1801)
评论(0)
推荐(1)
01Flask基础
摘要:简介 Flask诞生于2010年,是Armin ronacher(人名)用 Python 语言基于 Werkzeug 工具箱编写的轻量级Web开发框架。 Flask 本身相当于一个内核,其他几乎所有的功能都要用到扩展(邮件扩展Flask-Mail,用户认证Flask-Login,数据库Flask-S
阅读全文
posted @
2019-04-09 23:27
冰底熊
阅读(289)
评论(0)
推荐(0)
公告