洛丶丶丶

2019年5月10日

滑动验证

摘要：虎x网阅读全文

posted @ 2019-05-10 17:52 洛丶丶丶阅读(395) 评论(0) 推荐(0)

2019年3月21日

随机生成UserAgent包之fake-useragent

摘要：一、安装二、使用三、查看版本阅读全文

posted @ 2019-03-21 09:45 洛丶丶丶阅读(1408) 评论(0) 推荐(0)

2019年3月12日

网络编程和并发

摘要： 1.简述 OSI 七层协议。 OSI 开放系统互联参考模型，它是理论的，参考模型七层：物理层->数据链路层->网络层->传输层->会话层->表示层->应用层 2.什么是C/S和B/S架构？ c/s : 客户端/服务端 b/s : 浏览器/服务端 3.简述三次握手、四次挥手的流程。详情 4.什么阅读全文

posted @ 2019-03-12 14:58 洛丶丶丶阅读(332) 评论(0) 推荐(0)

数据库相关

摘要： 1.列举常见的关系型数据库和非关系型都有那些？关系型 : MySQL,SQL Server ,Oracle , Sybase, DB2 非关系型 : Redis, MongodDB 2.MySQL常见数据库引擎及比较？ InnoDB,MyISAM,NDB,Memory等 3.简述数据三大范式？ 1 阅读全文

posted @ 2019-03-12 14:58 洛丶丶丶阅读(257) 评论(0) 推荐(0)

2019年3月9日

基础面试题

摘要： 1. 为什什么学习Python？ Life is short, You need Python 2. 通过什什么途径学习的Python？ pass 3. Python和Java、PHP、C、C#、C++等其他语⾔言的对比？ pass 4. 简述解释型和编译型编程语言？将由高级语言编写的程序文件转换阅读全文

posted @ 2019-03-09 22:19 洛丶丶丶阅读(519) 评论(0) 推荐(0)

gitlab搭建

摘要：一、安装并配置必要的依赖关系首先要在CentOS系统上面安装所需的依赖：ssh、防火墙、postfix(用于邮件通知)、wegt，以下这些命令也会打开系统防火墙中的HTTP和SSH端口访问。 1、安装SSH协议 yum install -y curl policycoreutils-python 阅读全文

posted @ 2019-03-09 17:47 洛丶丶丶阅读(151) 评论(0) 推荐(0)

Git简介

摘要： Git介绍诞生同生活中的许多伟大事物一样，Git 诞生于一个极富纷争大举创新的年代。 Linux 内核开源项目有着为数众多的参与者。绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上（1991－2002年间）。到 2002 年，整个项目组开始启用一个专有的分布式版本控阅读全文

posted @ 2019-03-09 16:10 洛丶丶丶阅读(288) 评论(0) 推荐(0)

2019年2月19日

ORM之SQLALchemy

摘要：今天来聊一聊 Python 的 ORM 框架 SQLAlchemy SQLAlchemy 没有 Django 的 Models 好用！因为models是Django自带的ORM框架,也正是因为是Django原生的,所以兼容性远远不如SQLAlchemy 真正算得上全面的ORM框架必然是我们的SQLA 阅读全文

posted @ 2019-02-19 20:34 洛丶丶丶阅读(196) 评论(0) 推荐(0)

2019年1月16日

爬虫之scrapy-redis

摘要： redis分布式部署 scrapy框架是否可以自己实现分布式？不可以原因有两点基于scrapy-redis组件的分布式爬虫 scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取实现方式：分布式实现流程：代码如下 1.创建项目和应阅读全文

posted @ 2019-01-16 19:56 洛丶丶丶阅读(224) 评论(0) 推荐(0)

Scrapy框架之CrawlSpider

摘要：提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）简介 CrawlSpider其实是Sp 阅读全文

posted @ 2019-01-16 19:23 洛丶丶丶阅读(180) 评论(0) 推荐(0)

2019年1月15日

scrapy + selenium 的动态爬虫

摘要：动态爬虫在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也阅读全文

posted @ 2019-01-15 21:51 洛丶丶丶阅读(787) 评论(0) 推荐(0)

2019年1月14日

请求传参、日志等级和爬虫优化

摘要：请求传参在某些情况下，我们爬取的数据不在同一个页面中，例如，我们爬取一个电影网站，电影的名称，评分在一级页面，而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参案例展示：爬取http://www.55xia.com电影网，将一级页面中的电影名称，名字，评分二级页面中的导演，演员阅读全文

posted @ 2019-01-14 22:16 洛丶丶丶阅读(273) 评论(0) 推荐(0)

scrapy递归解析和post请求

摘要：递归解析递归爬取解析多页页面数据每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，然后通过对应的解析方法进行作者和段子内容的解析。实现方案： 1.将每一个页码对应的url存放到爬虫文件的起始url列表（start_urls）中。（不推荐） 2.使用Reque 阅读全文

posted @ 2019-01-14 21:08 洛丶丶丶阅读(288) 评论(0) 推荐(0)

2019年1月13日

scrapy的持久化相关

摘要：终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。需求是：将糗百首页中段子的内容和标题进行爬取新建项目流程 settings 文件 qiubai文件编辑内容为执行爬虫应用 * 执行阅读全文

posted @ 2019-01-13 21:59 洛丶丶丶阅读(147) 评论(0) 推荐(0)

2019年1月11日

scrapy初始和简单应用

摘要：什么是Scrapy 安装基础使用 1.创建项目：scrapy startproject 项目名称项目结构： project_name/ scrapy.cfg： project_name/ __init__.py items.py pipelines.py settings.py spiders/ 阅读全文

posted @ 2019-01-11 21:01 洛丶丶丶阅读(223) 评论(0) 推荐(0)

2019年1月10日

Fiddler和app抓包

摘要： 1：请在“运行”，即下面这个地方输入certmgr.msc并回车，打开证书管理。打开后，请点击操作--查找证书，如下所示：然后输入“fiddler”查找所有相关证书，如下所示：可以看到，我们找到一个，您可能会找到多个，不要紧，有多少个删多少个，全删之后，这一步完成 2：再接下来，打开火狐浏览器阅读全文

posted @ 2019-01-10 22:12 洛丶丶丶阅读(1110) 评论(0) 推荐(0)

爬虫之selenium和PhantomJS

摘要： selenium selenium是什么？环境搭建导包使用 select下拉菜单选择行为链 cookie操作等待 1. 隐式等待 2. 显式等待 js代码执行和窗口切换 ip代理注意：如果是Anaconda3的jupyter的情况，不能直接下载到本地的cpython解释器要在Anaco 阅读全文

posted @ 2019-01-10 21:37 洛丶丶丶阅读(348) 评论(0) 推荐(0)

爬虫之图片懒加载技术及js加密

摘要：图片懒加载图片懒加载概念：图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的阅读全文

posted @ 2019-01-10 17:58 洛丶丶丶阅读(928) 评论(0) 推荐(0)

爬虫之代理、乱码、验证码

摘要：代理爬虫中为什么需要使用代理代理的分类免费代理ip提供网站简单运用示例不受信任的网站例如有些网站的证书不被ca认证的添加verify = False 就可以了。乱码 1. 2. 其他编码可看这里 https://www.cnblogs.com/clbao/articles/11697 阅读全文

posted @ 2019-01-10 17:49 洛丶丶丶阅读(789) 评论(0) 推荐(0)

爬虫之正则和xpath

摘要：一.正解解析常用正则表达式回顾：爬取糗百数据二.xpath解析 xpath介绍 https://www.cnblogs.com/clbao/articles/10803582.html 1.本地文件 2.网络数据测试页面数据 58二手房数据阅读全文

posted @ 2019-01-10 16:48 洛丶丶丶阅读(784) 评论(0) 推荐(0)

爬虫之urllib库

摘要：一.urllib库简介简介 Urllib是Python内置的HTTP请求库。其主要作用就是可以通过代码模拟浏览器发送请求。它包含四个模块：相比Python2与3变化：其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中是urllib 阅读全文

posted @ 2019-01-10 16:31 洛丶丶丶阅读(235) 评论(0) 推荐(0)

爬虫之requests模块

摘要： requests模块什么是requests模块 requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位安装 requests库7个主要方法方法说明 requsts.requst() 构造一个请求阅读全文

posted @ 2019-01-10 15:47 洛丶丶丶阅读(190) 评论(0) 推荐(0)

爬虫简介

摘要： python网络爬虫的简单介绍基础储备 # 友情提示： # 了解下 http和https的概念 # python基础 python网络爬虫的简单介绍基础储备基础储备 # 友情提示： # 了解下 http和https的概念 # python基础什么是爬虫爬虫就是通过编写程序模拟浏览器上网阅读全文

posted @ 2019-01-10 15:34 洛丶丶丶阅读(255) 评论(0) 推荐(0)

2018年12月26日

MongoDb安装pymongo和mongoengine使用

摘要： 1.Mongodb安装 2.mongodb的增删改查 3.MongoDB数据类型 4.Mongodb $关键字 $修改器 5.MongoDB 之 "$" 的奇妙用法 6.MongoDB 之 Array Object 的特殊操作 7.MongoDB 之 Limit 选取 Skip 跳过 Sort 排序阅读全文

posted @ 2018-12-26 15:55 洛丶丶丶阅读(178) 评论(0) 推荐(0)

2018年12月24日

简单使用WebSocket实现聊天室

摘要：环境需求：flask，websocket第三方包目录结构 web中实现群聊 ws_群聊.py文件 # 实现一个websocket 先下载包 gevent-websocket from flask import Flask, request, render_template from geventw 阅读全文

posted @ 2018-12-24 21:53 洛丶丶丶阅读(235) 评论(0) 推荐(0)

公告