会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
吾生也有涯,而知也无涯
心有阳光,正视黑暗
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
7
8
9
10
11
12
13
14
15
···
25
下一页
2017年12月6日
elasticsearch-hadoop 扩展定制 官方包以支持 update upsert doc
摘要: 官方源码地址 https://github.com/elastic/elasticsearch-hadoop commit elasticsearch update doc by cclient · Pull Request #1080 · elastic/elasticsearch-hadoop
阅读全文
posted @ 2017-12-06 13:50 cclient
阅读(1534)
评论(0)
推荐(0)
2017年10月23日
kafka spark steam 写入elasticsearch的部分问题
摘要: 应用版本 elasticsearch 5.5 spark 2.2.0 hadoop 2.7 依赖包版本 docker cp /Users/cclient/.ivy2/cache/org.elasticsearch/elasticsearch-spark-20_2.11/jars/elasticsea
阅读全文
posted @ 2017-10-23 21:24 cclient
阅读(1947)
评论(0)
推荐(0)
2017年10月18日
scala slick mysql 字段过多 tuple问题
摘要: 原同步服务正常,因需,对方单表新增字段,超过22条 sbt assembly 编译出错 too many elements for tuple: 26, allowed: 22 scala case class 最多只支持22个构造参数 遂找解决办法 https://underscore.io/bl
阅读全文
posted @ 2017-10-18 20:19 cclient
阅读(1200)
评论(0)
推荐(0)
2017年10月12日
mongodb 前人埋坑的奇怪问题
摘要: 接手一个很老的项目 数据库用的mongodb 代码里的collections表名用的auth没问题 直接去monogdb show table 确实有auth表 想在本地登录,看看用户信息 > db.auth.findOne()Thu Sep 21 14:26:03.829 TypeError: O
阅读全文
posted @ 2017-10-12 22:22 cclient
阅读(216)
评论(0)
推荐(0)
2017年8月27日
elasticsearch minhash 测试应用
摘要: 上一章看了代码实现,算是搞明白了各参数的意义,现在开始测试,为方便以ik分词示例(对elasticsearch支持较好,测试操作简单) 首先建index,自定义 analysis ik分词用 ik_smart 添加length filter(分词后,只要词长度3个以上的词,这个后面会说明),添加mi
阅读全文
posted @ 2017-08-27 18:47 cclient
阅读(1096)
评论(0)
推荐(0)
elasticsearch min_hash 应用分析
摘要: 需求作相似文本查询 爬虫作页面去重,会用到simhash,第一个想到的是用simhash算法 但在现有数据集(elasticsearch集群)上用simhash,成本高,simhash值还好计算,不论是外部api还是实现一套es token filter都很容易实现.最大的难点在于查询,及相似度计算
阅读全文
posted @ 2017-08-27 18:12 cclient
阅读(1504)
评论(0)
推荐(0)
2017年8月10日
3亿(int)数据-2亿(int)数据 求差集
摘要: 两个大文本,每行一条int数据 3亿(int)数据-2亿(int)数据 求差集 原始(粗暴)办法 1redis set 或类似方案 本地内存 cpu都撑不住 2持久化两张表 sql join mysql join是两层暴力for的性能太差,还是单线程的sqlserver 三种join方式,1两层fo
阅读全文
posted @ 2017-08-10 11:09 cclient
阅读(456)
评论(0)
推荐(0)
2017年7月29日
直播弹幕抓取逆向分析流程总结 websocket,flash
摘要: 前端无秘密 直播的逆向抓取说到底是前端的调试和逆向技术,加上部分的dpa(深入包分析,个人能力尚作不到深入,只能作简单分析)难度较低 目前互联网直播弹幕主要是两种技术实现。 1websocket消息通信,js拿到消息再处理到dom中,逆向验证流程,和服务端建立连接后即可,逆向难度较低,消息分明文和加
阅读全文
posted @ 2017-07-29 11:22 cclient
阅读(4728)
评论(0)
推荐(1)
2017年5月19日
nginx 配合jersey+netty的奇怪问题
摘要: 角色 client proxy nginx server jersey+netty 问题表现 client 直接请求server 正常,返回准确json数据 jsondat client->nginx->server 经过nginx,则请求长时间阻塞,直到超时返回异常数据 "2000\r\n{jso
阅读全文
posted @ 2017-05-19 16:57 cclient
阅读(2054)
评论(0)
推荐(0)
2017年5月17日
mvn docker 部署 每次都需要下载包的问题
摘要: 项目大版本更新依赖很稳定,小版本基本不引入其他依赖 docker打包时image时,一次mvn package后 把m2文件拷贝解压,之后build时直接拷入,省得还得下载 第一次执行package 把m2拷出后打包传入 一切正常 但过了一天后 package时 Downloading: https
阅读全文
posted @ 2017-05-17 20:34 cclient
阅读(3986)
评论(0)
推荐(0)
上一页
1
···
7
8
9
10
11
12
13
14
15
···
25
下一页
公告