摘要:
前言 最近一年使用 Elasticsearch 完成亿级别日志搜索平台「ELK」,亿级别的分布式跟踪系统。在设计这些系统的过程中,底层都是采用 Elasticsearch 来做数据的存储,并且数据量都超过亿级别,甚至达到百亿级别。 所以趁着有空,就花点时间整理一下具体怎么做 Elasticsearc 阅读全文
posted @ 2019-04-30 22:22
星朝
阅读(2076)
评论(0)
推荐(0)
摘要:
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒! 但是商业应用的过程中存在的以下的问题: 阅读全文
posted @ 2019-04-30 17:51
星朝
阅读(3213)
评论(0)
推荐(0)
摘要:
<! flowchart 箭头图标 勿删 财务平台进行分录分表以后,随着数据量的日渐递增,业务人员对账务数据的实时分析响应时间越来越长,体验性慢慢下降,之前我们基于mysql的性能优化做了一遍,可以说基于mysql该做的优化已经基本上都做了,本次是基于elasticsearch对其做进一步的性能优化 阅读全文
posted @ 2019-04-30 17:39
星朝
阅读(667)
评论(0)
推荐(0)
摘要:
作为京东商家不需要读懂搜索规则的数据处理,2019年算法的变革将继续加大力度,毕竟搜索的流量依旧是京东商家主要的流量获取入口,今天的文章着重解密京东搜索技术,帮助商家更好理解。助教:鹿鸣 | 作者:搜索书生今天是搜索书生陪伴您的第1124天 阅读全文
posted @ 2019-04-30 17:37
星朝
阅读(1280)
评论(0)
推荐(0)
摘要:
笔记内容:搭建ELK日志分析平台(上)—— ELK介绍及搭建 Elasticsearch 分布式集群笔记日期:2018 03 02 27.1 ELK介绍 27.2 ELK安装准备工作 27.3 安装es 27.4 配置es 27.5 curl查看es集群情况 ELK介绍 需求背景: 业务发展越来越庞 阅读全文
posted @ 2019-04-30 15:25
星朝
阅读(930)
评论(0)
推荐(0)
摘要:
为什么用到ELK: 一般我们需要进行日志分析场景:直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中,此方法效率低下,面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理,所有服务器上的日志收集汇总。常见解决思路是建立集中式日志收集 阅读全文
posted @ 2019-04-30 15:23
星朝
阅读(247)
评论(0)
推荐(0)
摘要:
OLTP与OLAP的介绍 数据处理大致可以分成两大类:联机事务处理OLTP(on line transaction processing)、联机分析处理OLAP(On Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基 阅读全文
posted @ 2019-04-30 15:03
星朝
阅读(452)
评论(0)
推荐(0)
摘要:
<! flowchart 箭头图标 勿删 简介 es在对文档进行倒排索引的需要用分析器(Analyzer)对文档进行分析、建立索引。从文档中提取词元(Token)的算法称为分词器(Tokenizer),在分词前预处理的算法称为字符过滤器(Character Filter),进一步处理词元的算法称为词 阅读全文
posted @ 2019-04-30 14:43
星朝
阅读(798)
评论(0)
推荐(0)
摘要:
监控非常有用,不仅能及时预警发现故障,事后还能提供详实的数据用于追查定位问题。监控也非常重要,从产品的角度来看,没有监控意味着产品是不可靠不安全的。从技术的角度来看,没有监控意味着分析bug就如同盲人摸象,不知下次故障何时发生,出现故障后毫无头绪,无法解决。说到监控大家首先想到的是运维监控,不过监控 阅读全文
posted @ 2019-04-30 11:20
星朝
阅读(308)
评论(0)
推荐(0)
摘要:
1、boost方式 简单粗暴,最常用。 需求:查询出title和content中包含java spark的document 方式1: GET /forum/article/_search { "query": { "bool": { "should": [ { "match": { "title": 阅读全文
posted @ 2019-04-30 10:05
星朝
阅读(849)
评论(0)
推荐(0)
摘要:
前言之前《lucene的相关度评分TF&IDF算法以及向量空间模型算法》,已经很了解整个es的相关度评分的算法了,算法思想,TF/IDF,vector model,boolean model; 实际的公式,query norm,query coordination,boost。自定义相关度分 阅读全文
posted @ 2019-04-30 10:04
星朝
阅读(493)
评论(0)
推荐(0)
摘要:
ES信息:Centos7.2,ES6.2.2 , MASTER:16核/128G物理 3 ,DATA:16核/128G/12块HDD6T组成RAID0 40, JVM开了30G, 目前只有一个索引,每天10T(算上副本),分片160,副本1,保留7天】 故障描述:某一个节点( 阅读全文
posted @ 2019-04-30 09:32
星朝
阅读(1443)
评论(0)
推荐(0)
摘要:
最近在搞一个shell脚本启动jar文件个关闭jar文件的东东。搞得我都蛋疼了。今天晚上终于弄好了 话说,小弟的linux只是刚入门,经过各方查资料终于搞定了。话不多说,下面开始上小弟写的shell脚本 1 !/bin/bash 2 description: 启动重启server服务 3 端口号,根 阅读全文
posted @ 2019-04-30 08:52
星朝
阅读(19009)
评论(0)
推荐(0)

浙公网安备 33010602011771号