随笔分类 - 大数据

Mongo 应用查询

摘要：官网操作手册，基本就够用 https://docs.mongodb.com/manual/ 下面是个分组查询的例子，项目中用到然后查了个例子，自己理解了下，觉得很好很强大。 https://blog.csdn.net/yown/article/details/53946781 Mongo分组查询，分阅读全文

posted @ 2018-09-21 10:40 it_worker365 阅读(173) 评论(0) 推荐(0)

Hbase数据读写流程

摘要：From: https://blog.csdn.net/wuxintdrh/article/details/69056188 写操作： Client写入，存入Memstore，Memstore满则Flush成一个Storefile，Storefile文件数量增长到一定的阈值，触发Compact合并操阅读全文

posted @ 2018-09-12 09:29 it_worker365 阅读(214) 评论(0) 推荐(0)

ELK

摘要：ES - https://es.xiaoleilu.com/010_Intro/25_Tutorial_Indexing.html 这种类比让我对本来搜索的理解优点乱，稍微适应下 Elasticsearch集群可以包含多个索引(indices)（数据库），每一个索引可以包含多个类型(types)（表阅读全文

posted @ 2018-09-12 09:25 it_worker365 阅读(169) 评论(0) 推荐(0)

Spark/Storm/Flink

摘要：https://www.cnblogs.com/yaohaitao/p/5703288.html Spark Streaming与Storm的应用场景对于Storm来说：1、建议在那种需要纯实时，不能忍受1秒以上延迟的场景下使用，比如实时金融系统，要求纯实时进行金融交易和分析2、此外，如果对于实时阅读全文

posted @ 2018-08-07 10:57 it_worker365 阅读(278) 评论(0) 推荐(0)

Zookeeper 基本应用及盲点

摘要：主要应用 From: https://segmentfault.com/a/1190000012185452 http://blog.fens.me/zookeeper-queue/ 原理：应用zookeeper的持久化节点PERSISTENT、临时节点（断线即自动删除）、序列化节点名SEQUEN 阅读全文

posted @ 2018-07-13 13:49 it_worker365 阅读(142) 评论(0) 推荐(0)

日志收集系统

摘要：分布式系统海量日志，如何获取并进行各种分析得出实时或者非实时的分析结果活动流数据：页面访问量（Page View）、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的形式写入某种文件，然后周期性地对这些文件进行统计分析。运营数据指的是服务器的性能数据（CPU、I 阅读全文

posted @ 2017-06-13 16:21 it_worker365 阅读(2547) 评论(0) 推荐(0)

HBASE小结--待续使用

摘要：构建在HDFS之上的分布式，面向列的存储系统，使用zookeeper做协同服务，在需要实时读写和随机访问超大规模数据集的时候使用缺点：非关系型，不支持SQL，数据类型单一（字符串，无类型），之支持单行事物优点：大（上亿行，百万列），面向列/列簇的存储和控制权限，稀疏存储（对于NULL列不占空间）阅读全文

posted @ 2017-05-11 15:08 it_worker365 阅读(319) 评论(0) 推荐(0)

curator 实现分布式一致性锁

摘要：最近准备在项目中引入分布式锁，故而研究基于zookeeper的curator框架。网上资料不多，自己研究其源码发现，这个框架已经帮我做了很多现成的实现。下面介绍下锁的实现: 通过源码中LockingExample例子作为切入（推荐多利用现有资源，最快切入），为减小篇幅，代码仅保留关键部分。 cu 阅读全文

posted @ 2015-04-19 15:11 it_worker365 阅读(1096) 评论(0) 推荐(0)