会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
星火燎原智勇
指九天以为正兮,夫惟灵修之故也; 路漫漫其修远兮,吾将上下而求索。
博客园
首页
新随笔
联系
管理
上一页
1
···
5
6
7
8
9
10
11
12
13
···
16
下一页
2017年10月12日
ElasticStack系列之十四 & ElasticSearch5.x bulk update 中重复 id 性能骤降
摘要: 目前在绝对多数公司在使用 ElasticSearch 将其当做数据库使用,将多个数据库中的数据同步到 ElasticSearch 索引是非常常见的应用场景。那么自然而然就会涉及到数据频繁的新增和更新,而官方的文档并没有对 update 的底层机制做特别说明,而当我们从 2.x 版本升级到 5.x 发
阅读全文
posted @ 2017-10-12 22:41 星火燎原智勇
阅读(2472)
评论(0)
推荐(0)
2017年10月9日
ElasticStack系列之十三 & 联想补全策略
摘要: 业务需求 1. 实现搜索引擎前缀搜索功能(中文,拼音前缀查询及简拼前缀查询功能) 2. 实现摘要全文检索功能,及标题加权处理功能(按照标题权值高内容权值相对低的权值分配规则,按照索引的相关性进行排序,列出前20条相关性最高的文章) 前缀搜索 中文搜索: 1. 搜索“刘”,匹配到“刘德华”、“刘斌”、
阅读全文
posted @ 2017-10-09 19:20 星火燎原智勇
阅读(626)
评论(0)
推荐(0)
ElasticStack系列之十二 & 搜索结果研究
摘要: 问题 使用 ElasticSearch 做搜索 时,比如用户输入 --> 柠檬,搜出来的结果 --> 柠檬汽水,柠檬味牙膏等在前面,真正想要的水果那个 柠檬 在后面。已经在中文分词中加了 柠檬,还是不管用,正常来说 tf、idf 都一样,影响排序的只有 field norms。按道理 “柠檬” 的
阅读全文
posted @ 2017-10-09 18:53 星火燎原智勇
阅读(450)
评论(0)
推荐(0)
ElasticStack系列之十一 & 同步 mysql 数据的实践与思考
摘要: 问题 1. jdbc-input-plugin 只能实现数据库的追加,对于 elasticsearch 增量写入,但经常 jdbc 源一端的数据库可能会做数据库删除或者更新操作。这样一来数据库与搜索引擎的数据库就出现了不对称的情况。当然你如果有开发团队可以写程序在删除或者更新的时候同步对搜索引擎操作
阅读全文
posted @ 2017-10-09 18:23 星火燎原智勇
阅读(608)
评论(0)
推荐(0)
golang 性能测试pprof
摘要: golang 性能测试包是位于 net/http 包下的 pprof,其相关介绍可以参看具体的 官方文档 有关 golang 性能测试使用特别简单,在 main 包中的引包位置直接引入: import _ "net/http/pprof" 之后,在 main 函数中增加以下代码行即可: go fun
阅读全文
posted @ 2017-10-09 17:58 星火燎原智勇
阅读(1269)
评论(0)
推荐(0)
graphviz 程序生成多种类型图表详解
摘要: 简介 一幅图抵得上千言万语,这在描述复杂的计算机系统时尤为正确。当系统环境变得更加复杂时,用图将它们表示出来并记入文档就显得更加重要。例如,虚拟化技术有很多优点,但它们通常会让环境变得更加复杂和更难理解。Graphviz 是一个可以创建图表的灵活应用程序,可以轻松实现脚本化。本文将介绍 Graphv
阅读全文
posted @ 2017-10-09 17:26 星火燎原智勇
阅读(6714)
评论(1)
推荐(0)
2017年10月5日
JAVA 线程池基本总结
摘要: 合理利用线程池能够带来三个好处。 第一:降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。 第二:提高响应速度。当任务到达时,任务可以不需要等到线程创建就能立即执行。 第三:提高线程的可管理性。 线程是稀缺资源,如果无限制的创建,不仅会消耗系统资源,还会降低系统的稳定性,使用线程池
阅读全文
posted @ 2017-10-05 21:27 星火燎原智勇
阅读(452)
评论(0)
推荐(1)
golang 中的 time 包的 Ticker
摘要: 真实的应用场景是:在测试收包的顺序的时候,加了个 tick 就发现丢包了 那么来看一个应用例子: 输出结果如下: 问题出在这个select里面: [tick.C 介绍说明] 当两个 case 条件都满足的时候,运行时系统会通过一个伪随机的算法决定哪个case将会被执行。所以当 tick.C 条件满足
阅读全文
posted @ 2017-10-05 21:05 星火燎原智勇
阅读(999)
评论(0)
推荐(0)
golang 中 sync包的 WaitGroup
摘要: golang 中的 sync 包有一个很有用的功能,就是 WaitGroup 先说说 WaitGroup 的用途:它能够一直等到所有的 goroutine 执行完成,并且阻塞主线程的执行,直到所有的 goroutine 执行完成。 WaitGroup 总共有三个方法:Add(delta int),
阅读全文
posted @ 2017-10-05 20:27 星火燎原智勇
阅读(1163)
评论(0)
推荐(0)
2017年9月30日
Go_20: Golang 中 time 包的使用
摘要: time包中包括两类时间:时间点(某一时刻)和时常(某一段时间) 1. 时间常量(时间格式化) 这些常量是在time包中进行 time 格式化 和 time 解析而预定义的一些常量,其实他们使用的都是一个特定的时间: 这个时间是 Unix time 1136239445,因为MST是 GMT-070
阅读全文
posted @ 2017-09-30 18:35 星火燎原智勇
阅读(1341)
评论(1)
推荐(0)
mysql 同步数据到 ElasticSearch 的方案
摘要: MySQL Binlog 要通过 MySQL binlog 将 MySQL 的数据同步给 ES, 我们只能使用 row 模式的 binlog。如果使用 statement 或者 mixed format,我们在 binlog 里面只能知道对应的 query 语句,完全没法知道这条语句到底改了啥数据,
阅读全文
posted @ 2017-09-30 18:15 星火燎原智勇
阅读(2455)
评论(0)
推荐(0)
mysql 对应 binlog 查看
摘要: 什么是 binlog 基于语句,无法保证所有语句都在从库执行成功,比如update ... limit 1; 基于行,将每一次改动记为binlog中的一行.在执行一个特别复杂的update或者delete操作时,基于行的格式会有优势. 如何查看 binlog 1. 只查看第一个 binlog 文件的
阅读全文
posted @ 2017-09-30 17:59 星火燎原智勇
阅读(337)
评论(0)
推荐(0)
2017年9月27日
TOML 详解
摘要: TOML的由来 TOML的由来 TOML的由来 配置文件的使用由来已久,从.ini、XML、JSON、YAML再到TOML,语言的表达能力越来越强,同时书写便捷性也在不断提升。 TOML是前GitHub CEO, Tom Preston-Werner,于2013年创建的语言,其目标是成为一个小规模的
阅读全文
posted @ 2017-09-27 11:10 星火燎原智勇
阅读(14790)
评论(0)
推荐(1)
2017年8月4日
python3.6爬虫总结-01
摘要: 1. HTTP 简介 HTTP常见状态码
阅读全文
posted @ 2017-08-04 18:59 星火燎原智勇
阅读(407)
评论(0)
推荐(0)
Golang 之协程详解
摘要: 一、Golang 线程和协程的区别 备注:需要区分进程、线程(内核级线程)、协程(用户级线程)三个概念。 进程、线程 和 协程 之间概念的区别 对于 进程、线程,都是有内核进行调度,有 CPU 时间片的概念,进行 抢占式调度(有多种调度算法) 对于 协程(用户级线程),这是对内核透明的,也就是系统并
阅读全文
posted @ 2017-08-04 16:41 星火燎原智勇
阅读(72590)
评论(7)
推荐(14)
上一页
1
···
5
6
7
8
9
10
11
12
13
···
16
下一页
公告