摘要: Parquet列式存储 Apache Parquet是Hadoop生态系统中的列式存储格式,面向分析型业务,与数据处理框架、数据模型、编程语言无关。 ● 优势降低存储空间:按列存,能够更好地压缩数据,因为一列的数据一般都是同质的(homogenous)提高IO效率:扫描(遍历/scan)的时候,可以 阅读全文
posted @ 2016-11-24 17:23 Uncle_Nucky 阅读(4914) 评论(0) 推荐(1) 编辑
摘要: 本文搭建环境为:Mac + Parallel Desktop + CentOS7 + JDK7 + Hadoop2.6 + Scala2.10.4 + IDEA14.0.5 —————————————————————————————————————————————————— 一、CentOS安装 ■ 阅读全文
posted @ 2016-11-17 08:45 Uncle_Nucky 阅读(637) 评论(0) 推荐(0) 编辑
摘要: ■ 把字符串作为 URI 组件进行编码。JavaScript中有三个可以对字符串编码的函数,分别是: escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decodeURIComponent。● escape()除了 ASC 阅读全文
posted @ 2016-11-07 09:24 Uncle_Nucky 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 【规则】开头结尾 "^The":表示所有以"The"开始的字符串("There","The cat"等); "of despair$":表示所以以"of despair"结尾的字符串;重复 "ab*":表示一个字符串有一个a后面跟着零个或若干个b。("a", "ab", "abbb",……); "a 阅读全文
posted @ 2016-11-04 16:36 Uncle_Nucky 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 【ZooKeeper】服务注册、服务发现、客户端负载均衡、Offset偏移量分布式存储。kafka使用zookeeper来实现动态的集群扩展,不需要更改客户端(producer和consumer)的配置。broker会在zookeeper注册并保持相关的元数据(topic,partition信息等)... 阅读全文
posted @ 2015-09-30 01:34 Uncle_Nucky 阅读(512) 评论(0) 推荐(0) 编辑
摘要: ————————————————————————————————————————————————【关键原理】1.消息文件存储(消息堆积能力)2.消息topic分区3.消息顺序的保证4.拉模型(消费者水平扩展)——————————————————————————————————————————————... 阅读全文
posted @ 2015-09-30 01:31 Uncle_Nucky 阅读(2504) 评论(0) 推荐(0) 编辑
摘要: kafka是为分布式环境设计的,因此如果日志文件,其实也可以理解成消息数据库,放在同一个地方,那么必然会带来可用性的下降,一挂全挂,如果全量拷贝到所有的机器上,那么数据又存在过多的冗余,而且由于每台机器的磁盘大小是有限的,所以即使有再多的机器,可处理的消息还是被磁盘所限制,无法超越当前磁盘大小.因此... 阅读全文
posted @ 2015-09-30 01:31 Uncle_Nucky 阅读(2978) 评论(0) 推荐(0) 编辑
摘要: 在对消息进行存储和缓存时,Kafka依赖于文件系统。(Page Cache)线性读取和写入是所有使用模式中最具可预计性的一种方式,因而操作系统采用预读(read-ahead)和后写(write-behind)技术对磁盘读写进行探测并优化后效果也不错。预读就是提前将一个比较大的磁盘块中内容读入内存,后... 阅读全文
posted @ 2015-09-30 01:30 Uncle_Nucky 阅读(6068) 评论(0) 推荐(0) 编辑
摘要: ================================================================================================哈希表的概念 哈希表(Hash Table)也叫散列表,是根据关键码值(Key Value)而直接进行访问的... 阅读全文
posted @ 2015-09-27 16:15 Uncle_Nucky 阅读(314) 评论(0) 推荐(0) 编辑
摘要: sizeof内存对齐1 #include "iostream"2 using namespace std;34 void main()5 {6 class A7 {891011 }a;121314cout<<sizeof(a)<<endl;1516 }运行结果是:1.空类占用的内存大小是1,空类没有... 阅读全文
posted @ 2015-09-27 09:08 Uncle_Nucky 阅读(206) 评论(0) 推荐(0) 编辑