上一页 1 2 3 4 5 6 ··· 8 下一页
摘要: ES分布式搜索,依赖了Lucene来提供搜索引擎功能,每个数据节点都是一个Lucene实例,通过将索引进行分片,写入和查询时候操作或查询对应分片,来达到水平扩展的能力 节点 Master node:负责管理集群范围内的所有变更,例如增加、删除索引,或者增加、删除节点,分片分配等。 主节点并不需要涉及 阅读全文
posted @ 2019-07-10 17:22 j.liu windliu 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 在hdfs目录:/user/xx/table/test_external 保存 test_external 表数据 先建表,使用列式存储格式 CREATE external TABLE ( STRING, STRING, STRING STRING) PARTITIONED BY (day_mart 阅读全文
posted @ 2019-06-28 13:51 j.liu windliu 阅读(1657) 评论(0) 推荐(0) 编辑
摘要: SmoothBursty 主要思想 记录 1秒内的微秒数/permitsPerSencond = 时间间隔interval,每一个interval可获得一个令牌 根据允许使用多少秒内的令牌参数,计算出maxPermits setRate时初始化下次interval时间,及storedPermits 阅读全文
posted @ 2019-06-26 10:10 j.liu windliu 阅读(1938) 评论(0) 推荐(0) 编辑
摘要: Raft协议 Raft协议基于日志实现了一致性 实现备份的是机制:复制状态机Replicated State Machine,如果两个相同的、确定性的状态机从同一状态开始,以相同顺序输入相同的日志,则两个状态机最终也会保持一致 ![](https://img2018.cnblogs.com/blog 阅读全文
posted @ 2019-06-25 00:47 j.liu windliu 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 贫血模型 client (business facade) business logic data access object entity仅作为data access object传递数据,没有具体的行为,具体业务都在business logic, business logic较重,不那么面向对象 阅读全文
posted @ 2019-06-14 16:36 j.liu windliu 阅读(202) 评论(0) 推荐(0) 编辑
摘要: ============= RDD MapReduce的不足: 计算之间数据共享只有一个办法,写入到文件系统如hdfs,引入了磁盘IO,序列化等开销,从而占据了大部分的执行时间。 RDD: 更强的容错性,如通过数据集的血统,如通过两个父集join,map,filter出子集,可以快速恢复慢节点或某个 阅读全文
posted @ 2019-06-14 09:49 j.liu windliu 阅读(363) 评论(0) 推荐(0) 编辑
摘要: spark可以使用checkpoint来作为检查点,将rdd的数据写入hdfs文件,也可以利用本地缓存子系统。 当我们使用checkpoint将rdd保存到hdfs文件时,如果任务的临时文件长时间不删除,长此以往,hdfs会出现很多没有用的文件,spark也考虑到了这一点,因此,用了一些取巧的方式来 阅读全文
posted @ 2019-06-06 09:56 j.liu windliu 阅读(1659) 评论(0) 推荐(2) 编辑
摘要: Parquet 列式存储格式 ======= 参考文章: https://blog.csdn.net/kangkangwanwan/article/details/78656940 http://parquet.apache.org/documentation/latest/ 列式存储的优势 把IO 阅读全文
posted @ 2019-05-29 10:34 j.liu windliu 阅读(5586) 评论(0) 推荐(0) 编辑
摘要: 错误分析 堆栈信息中有一个错误信息:Job aborted due to stage failure: Task 1 in stage 2.0 failed 4 times, most recent failure: Lost task 1.3 in stage 2.0 (TID 264, idc 阅读全文
posted @ 2019-05-29 09:32 j.liu windliu 阅读(6068) 评论(0) 推荐(0) 编辑
摘要: spark load data from mysql == code first 本机通过spark shell.cmd启动一个spark进程 执行到show时,任务开始真正执行,此时,我们单机debug,来跟踪partitionColumn的最终实现方式 debug类 org.apache.spa 阅读全文
posted @ 2019-05-13 18:20 j.liu windliu 阅读(194) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 8 下一页