会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
莫失莫忘csbh
每个人心中都有一团火,路过的人只看到了烟!
博客园
首页
新随笔
联系
管理
订阅
随笔分类 -
小知识点
分布式爬虫之elasticsearch基础6(bluk)
摘要:上篇文章介绍了在es里面批量读取数据的方法mget,本篇我们来看下关于批量写入的方法bulk。 bulk api可以在单个请求中一次执行多个索引或者删除操作,使用这种方式可以极大的提升索引性能。 bulk的语法格式是: 从上面能够看到,两行数据构成了一次操作,第一行是操作类型可以index,crea
阅读全文
posted @
2018-11-25 21:47
莫失莫忘csbh
阅读(675)
评论(0)
推荐(0)
分布式爬虫之elasticsearch基础1
摘要:一:搜索引擎elasticsearch介绍 Elasticsearch 是一个全文搜索引擎,可以快速地储存、搜索和分析海量数据。 二:应用场景 海量数据分析引擎 站内搜索引擎 数据仓库 三:安装 我们可以到 Elasticsearch 的官方网站下载 Elasticsearch:https://ww
阅读全文
posted @
2018-11-22 14:51
莫失莫忘csbh
阅读(859)
评论(0)
推荐(0)
关于查找替换为加引号形式
摘要:当很多内容需要构造成字典可以使用re的方式构造: 首先选中内容: 然后ctrl +F查找,ctrl +R 替换 注意后面的逗号必须有
阅读全文
posted @
2018-08-27 10:28
莫失莫忘csbh
阅读(297)
评论(0)
推荐(0)
关于pyquery小知识点
摘要:#表示的是取html中的id元素, . 表示的是取html中的class元素。 如果是标签,就直接用标签名 而它们之间的空格,则表示嵌套关系 单冒号(:)用于CSS3伪类,双冒号(::)用于CSS3伪元素。
阅读全文
posted @
2018-08-23 14:36
莫失莫忘csbh
阅读(138)
评论(0)
推荐(0)
PySpider HTTP 599: SSL certificate problem错误的解决方法
摘要:在用 PySpider 爬取 https 开头的网站的时候遇到了 HTTP 599: SSL certificate problem: self signed certificate in certificate chain 的错误。 经过一番排查,解决方案总结如下 错误原因 这个错误会发生在请求
阅读全文
posted @
2018-08-23 09:24
莫失莫忘csbh
阅读(1540)
评论(0)
推荐(0)
使用pycharm调用模块后字体变灰
摘要:点击小灯泡提示出现以下内容:This inspection detects names that should resolve but don't. Due to dynamic dispatch and duck typing, this is possible in a limited but
阅读全文
posted @
2018-08-21 10:48
莫失莫忘csbh
阅读(4470)
评论(0)
推荐(1)
关于断点调试
摘要:转自https://cn.aliyun.com/jiaocheng/474747.html
阅读全文
posted @
2018-08-14 11:16
莫失莫忘csbh
阅读(119)
评论(0)
推荐(0)
scrapy的request的meta参数是什么意思?
摘要:作者:乌尔班链接:https://www.zhihu.com/question/54773510/answer/146971644来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Request中meta参数的作用是传递信息给下一个函数,使用过程可以理解成: 把需要传递
阅读全文
posted @
2018-08-02 14:52
莫失莫忘csbh
阅读(620)
评论(0)
推荐(0)
数据结构
摘要:什么是数据结构? 栈 栈的实现 栈的应用 栈的应用 maze = [ # 迷宫 [1,1,1,1,1,1,1,1,1,1], [1,0,0,1,0,0,0,1,0,1], [1,0,0,1,0,0,0,1,0,1], [1,0,0,0,0,1,1,0,0,1], [1,0,1,1,1,0,0,0,0
阅读全文
posted @
2018-07-01 22:58
莫失莫忘csbh
阅读(215)
评论(0)
推荐(0)
scrapy模拟登陆的几种方法
摘要:方法一: 方法二: 方法三:
阅读全文
posted @
2018-06-30 18:41
莫失莫忘csbh
阅读(204)
评论(0)
推荐(0)
scrapy框架
摘要:入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据) 一. 新建项目(scrapy startproject) 在开始爬取之前,必须创建
阅读全文
posted @
2018-06-30 18:38
莫失莫忘csbh
阅读(289)
评论(0)
推荐(0)
mongodb启动与运用
摘要:在操作前需要启动mongodb数据库服务 1.首先打开dos窗口,然后选择路径到你的安装路径下的bin目录(我的路径是的D:mongo\mongodb\bin) 2.然后输入启动命令(D:mongo\data\db 是我的数据库文件的目录前边两个 – 不能少) mongod --dbpath D:m
阅读全文
posted @
2018-06-30 12:28
莫失莫忘csbh
阅读(8703)
评论(0)
推荐(0)
破解滑块(极验)验证码思路
摘要:破解核心思路: 1、如何确定滑块滑动的距离? 滑块滑动的距离,需要检测验证码图片的缺口位置 滑动距离 = 终点坐标 - 起点坐标 然后问题转化为我们需要屏幕截图,根据selenium中的position方法并进行一些坐标计算,获取我们需要的位置 2、坐标我们如何获取? 起点坐标: 每次运行程序,位置
阅读全文
posted @
2018-06-30 10:06
莫失莫忘csbh
阅读(33224)
评论(1)
推荐(6)
爬虫工具——Selenium和PhantomJS
摘要:Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自
阅读全文
posted @
2018-06-29 15:55
莫失莫忘csbh
阅读(662)
评论(0)
推荐(0)
响应状态码
摘要:1 xx:信息 100 Continue 服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。 101 Switching Protocols 服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。 2xx:成功 200 OK 请求成功(其后是对GET和POST
阅读全文
posted @
2018-06-28 14:41
莫失莫忘csbh
阅读(221)
评论(0)
推荐(0)
git
摘要:一个小时学会Git 目录 一、版本控制概要 1.1、什么是版本控制 1.2、常用术语 1.3、常见的版本控制器 1.4、版本控制分类 1.4.1、本地版本控制 1.4.2、集中版本控制 1.4.3、分布式版本控制 1.5、Git与SVN最主要区别 二、Git安装与配置 2.1、什么是Git 2.2、
阅读全文
posted @
2018-06-26 14:36
莫失莫忘csbh
阅读(240)
评论(0)
推荐(0)
CSRF攻击原理及防御
摘要:来源于https://www.cnblogs.com/shytong/p/5308667.html 一、CSRF攻击原理 CSRF是什么呢?CSRF全名是Cross-site request forgery,是一种对网站的恶意利用,CSRF比XSS更具危险性。想要深入理解CSRF的攻击特性我们有必要
阅读全文
posted @
2018-06-25 17:19
莫失莫忘csbh
阅读(317)
评论(0)
推荐(0)
SVN服务器安装与本地连接
摘要:SVN服务器安装与本地连接 系统环境 Centos7 查看是否安装了低版本SVN [root@svn-server ~]# rpm -qa subversion 卸载旧版本SVN [root@svn-server ~]# yum remove subversion 安装 [root@svn-serv
阅读全文
posted @
2018-06-21 11:16
莫失莫忘csbh
阅读(760)
评论(0)
推荐(0)
公告