随笔列表第2页 - j.liu windliu

2019年7月10日

摘要： ES分布式搜索，依赖了Lucene来提供搜索引擎功能，每个数据节点都是一个Lucene实例,通过将索引进行分片，写入和查询时候操作或查询对应分片，来达到水平扩展的能力节点 Master node：负责管理集群范围内的所有变更，例如增加、删除索引，或者增加、删除节点，分片分配等。主节点并不需要涉及阅读全文

posted @ 2019-07-10 17:22 j.liu windliu 阅读(218) 评论(0) 推荐(0) 编辑

2019年6月28日

hive drop和恢复partition external table

摘要：在hdfs目录：/user/xx/table/test_external 保存 test_external 表数据先建表，使用列式存储格式 CREATE external TABLE ( STRING, STRING, STRING STRING) PARTITIONED BY (day_mart 阅读全文

posted @ 2019-06-28 13:51 j.liu windliu 阅读(1657) 评论(0) 推荐(0) 编辑

2019年6月26日

RateLimiter的 SmoothBursty（非warmup预热）及SmoothWarmingUp（预热，冷启动）

摘要： SmoothBursty 主要思想记录 1秒内的微秒数/permitsPerSencond = 时间间隔interval,每一个interval可获得一个令牌根据允许使用多少秒内的令牌参数，计算出maxPermits setRate时初始化下次interval时间，及storedPermits 阅读全文

posted @ 2019-06-26 10:10 j.liu windliu 阅读(1938) 评论(0) 推荐(0) 编辑

2019年6月25日

Raft协议备注

摘要： Raft协议 Raft协议基于日志实现了一致性实现备份的是机制：复制状态机Replicated State Machine,如果两个相同的、确定性的状态机从同一状态开始，以相同顺序输入相同的日志，则两个状态机最终也会保持一致 ![](https://img2018.cnblogs.com/blog 阅读全文

posted @ 2019-06-25 00:47 j.liu windliu 阅读(208) 评论(0) 推荐(0) 编辑

2019年6月14日

领域建模笔记

摘要：贫血模型 client （business facade） business logic data access object entity仅作为data access object传递数据，没有具体的行为，具体业务都在business logic, business logic较重,不那么面向对象阅读全文

posted @ 2019-06-14 16:36 j.liu windliu 阅读(202) 评论(0) 推荐(0) 编辑

Spark编程模型

摘要： ============= RDD MapReduce的不足：计算之间数据共享只有一个办法，写入到文件系统如hdfs，引入了磁盘IO,序列化等开销，从而占据了大部分的执行时间。 RDD: 更强的容错性，如通过数据集的血统，如通过两个父集join,map,filter出子集，可以快速恢复慢节点或某个阅读全文

posted @ 2019-06-14 09:49 j.liu windliu 阅读(363) 评论(0) 推荐(0) 编辑

2019年6月6日

Spark如何删除无效rdd checkpoint

摘要： spark可以使用checkpoint来作为检查点，将rdd的数据写入hdfs文件，也可以利用本地缓存子系统。当我们使用checkpoint将rdd保存到hdfs文件时，如果任务的临时文件长时间不删除，长此以往，hdfs会出现很多没有用的文件，spark也考虑到了这一点，因此，用了一些取巧的方式来阅读全文

posted @ 2019-06-06 09:56 j.liu windliu 阅读(1659) 评论(0) 推荐(2) 编辑

2019年5月29日

Parquet 列式存储格式

摘要： Parquet 列式存储格式 ======= 参考文章： https://blog.csdn.net/kangkangwanwan/article/details/78656940 http://parquet.apache.org/documentation/latest/ 列式存储的优势把IO 阅读全文

posted @ 2019-05-29 10:34 j.liu windliu 阅读(5586) 评论(0) 推荐(0) 编辑

Spark执行失败时的一个错误分析

摘要：错误分析堆栈信息中有一个错误信息：Job aborted due to stage failure: Task 1 in stage 2.0 failed 4 times, most recent failure: Lost task 1.3 in stage 2.0 (TID 264, idc 阅读全文

posted @ 2019-05-29 09:32 j.liu windliu 阅读(6068) 评论(0) 推荐(0) 编辑

2019年5月13日

spark load data from mysql

摘要： spark load data from mysql == code first 本机通过spark shell.cmd启动一个spark进程执行到show时，任务开始真正执行，此时，我们单机debug，来跟踪partitionColumn的最终实现方式 debug类 org.apache.spa 阅读全文

posted @ 2019-05-13 18:20 j.liu windliu 阅读(194) 评论(0) 推荐(0) 编辑