随笔分类 - 开发经验
摘要:实战:上亿数据如何秒查? 发布于 2016年07月01日 ! 资讯详情页上方 (adsbygoogle = window.adsbygoogle || []).push({}); 开发四年只会写业务代码,分布式高并发都不会还做程序员? 最近在忙着优化集团公司的一个报表。优化
阅读全文
摘要:背景关系型数据库在执行计数任务时,其执行效率会随着数据量级的增长而降低;当数据量达到亿级别时,计数任务的执行效率已经低到令人不忍直视。在闲鱼团队的关系系统中,我们采用了这样一种方式来实现亿级别数据的毫秒级计数。挑战闲鱼现有的业务场景中,用户收藏宝贝、关注他人的数据量,已经达到亿级别。传统的关系型数据
阅读全文
摘要:<! flowchart 箭头图标 勿删 财务平台进行分录分表以后,随着数据量的日渐递增,业务人员对账务数据的实时分析响应时间越来越长,体验性慢慢下降,之前我们基于mysql的性能优化做了一遍,可以说基于mysql该做的优化已经基本上都做了,本次是基于elasticsearch对其做进一步的性能优化
阅读全文
摘要:这本书知识范围广,但都浅尝辄止,可以用来开阔视野,由于之前看过李智慧的《大型网站技术架构》,有部分内容是重合的,所以翻起来比较快。这里只记录下之前没太了解的点第1章:交易型系统设计的一些原则开场白太棒了,想全部记录下来,本章还记录了一些设计的原则。1、一个好的设计要做到,解决现有需求和问题,把控实现
阅读全文
摘要:本文将会简单介绍Kubernetes的核心概念。因为这些定义可以在Kubernetes的文档中找到,所以文章也会避免用大段的枯燥的文字介绍。相反,我们会使用一些图表(其中一些是动画)和示例来解释这些概念。我们发现一些概念(比如Service)如果没有图表的辅助就很难全面地理解。在合适的地方我们也会提
阅读全文
摘要:【编者的话】选择Kubernetes 或者 Swarm 就像在将 Linux 桌面发行版的范围缩小到两个后选出一个最喜欢的。哪个更满足你的需要如何才是决定因素。 【3 天烧脑式基于Docker的CI/CD实战训练营 | 北京站】本次培训围绕基于Docker的CI/CD实战展开,具体内容包括:持续集成
阅读全文
摘要:1、前言 谈及docker,避免不了需要熟练的记住好多命令及其用法,对于熟悉shell、技术开发人员而言,还是可以接受的,熟练之后,命令行毕竟是很方便的,便于操作及脚本化。但对于命令行过敏、非技术人员,进行docker部署、管理是比较头疼的,学习成本是很高的
阅读全文
摘要:Docker命令 docker 常用命令如下 管理命令: container 管理容器 image 管理镜像 network 管理网络 node 管理Swarm节点 plugin 管理插件 secret 管理Docker secrets service 管理服务 stack 管理Docker sta
阅读全文
摘要:如果你正在寻找性能监控工具,不妨看看以下推荐的这五款开源工具,这些工具目前已经可以替代付费工具了,你可以看看是否是你的最佳选择。本文推荐的五款开源工具目前是开源社区中最受欢迎的。 1. Stagemonitor Stagemonitor提供了一个Java监控代理程序,它是使用集群应用程序堆栈构建的。
阅读全文
摘要:前言 最近一年使用 Elasticsearch 完成亿级别日志搜索平台「ELK」,亿级别的分布式跟踪系统。在设计这些系统的过程中,底层都是采用 Elasticsearch 来做数据的存储,并且数据量都超过亿级别,甚至达到百亿级别。 所以趁着有空,就花点时间整理一下具体怎么做 Elasticsearc
阅读全文
摘要:笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒! 但是商业应用的过程中存在的以下的问题:
阅读全文
摘要:<! flowchart 箭头图标 勿删 财务平台进行分录分表以后,随着数据量的日渐递增,业务人员对账务数据的实时分析响应时间越来越长,体验性慢慢下降,之前我们基于mysql的性能优化做了一遍,可以说基于mysql该做的优化已经基本上都做了,本次是基于elasticsearch对其做进一步的性能优化
阅读全文
摘要:作为京东商家不需要读懂搜索规则的数据处理,2019年算法的变革将继续加大力度,毕竟搜索的流量依旧是京东商家主要的流量获取入口,今天的文章着重解密京东搜索技术,帮助商家更好理解。助教:鹿鸣 | 作者:搜索书生今天是搜索书生陪伴您的第1124天
阅读全文
摘要:笔记内容:搭建ELK日志分析平台(上)—— ELK介绍及搭建 Elasticsearch 分布式集群笔记日期:2018 03 02 27.1 ELK介绍 27.2 ELK安装准备工作 27.3 安装es 27.4 配置es 27.5 curl查看es集群情况 ELK介绍 需求背景: 业务发展越来越庞
阅读全文
摘要:为什么用到ELK: 一般我们需要进行日志分析场景:直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中,此方法效率低下,面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理,所有服务器上的日志收集汇总。常见解决思路是建立集中式日志收集
阅读全文
摘要:OLTP与OLAP的介绍 数据处理大致可以分成两大类:联机事务处理OLTP(on line transaction processing)、联机分析处理OLAP(On Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基
阅读全文
摘要:<! flowchart 箭头图标 勿删 简介 es在对文档进行倒排索引的需要用分析器(Analyzer)对文档进行分析、建立索引。从文档中提取词元(Token)的算法称为分词器(Tokenizer),在分词前预处理的算法称为字符过滤器(Character Filter),进一步处理词元的算法称为词
阅读全文
摘要:监控非常有用,不仅能及时预警发现故障,事后还能提供详实的数据用于追查定位问题。监控也非常重要,从产品的角度来看,没有监控意味着产品是不可靠不安全的。从技术的角度来看,没有监控意味着分析bug就如同盲人摸象,不知下次故障何时发生,出现故障后毫无头绪,无法解决。说到监控大家首先想到的是运维监控,不过监控
阅读全文
摘要:1、boost方式 简单粗暴,最常用。 需求:查询出title和content中包含java spark的document 方式1: GET /forum/article/_search { "query": { "bool": { "should": [ { "match": { "title":
阅读全文
摘要:前言之前《lucene的相关度评分TF&IDF算法以及向量空间模型算法》,已经很了解整个es的相关度评分的算法了,算法思想,TF/IDF,vector model,boolean model; 实际的公式,query norm,query coordination,boost。自定义相关度分
阅读全文

浙公网安备 33010602011771号