05 2017 档案
摘要:一、 1、Kafka的消费并行度依赖Topic配置的分区数,如分区数为10,那么最多10台机器来并行消费(每台机器只能开启一个线程),或者一台机器消费(10个线程并行消费)。即消费并行度和分区数一致。 2、(1)如果指定了某个分区,会只讲消息发到这个分区上 (2)如果同时指定了某个分区和key,则也
阅读全文
摘要:一、 1、原理图 2、原理描述 一个topic 可以配置几个partition,produce发送的消息分发到不同的partition中,consumer接受数据的时候是按照group来接受,kafka确保每个partition只能同一个group中的同一个consumer消费,如果想要重复消费,那
阅读全文
摘要:一、 1、生产者 产生数据 注: props.put("serializer.class", "kafka.serializer.StringEncoder") 发送的数据是String, 还可以是 二进制数组形式: props.put("serializer.class", "kafka.seri
阅读全文
摘要:一、Hbase结合mapreduce 为什么需要用 mapreduce 去访问 hbase 的数据? ——加快分析速度和扩展分析能力 Mapreduce 访问 hbase 数据作分析一定是在离线分析的场景下应用 1、HbaseToHDFS 从 hbase 中读取数据,分析之后然后写入 hdfs,代码
阅读全文
摘要:一、 几个主要 Hbase API 类和数据模型之间的对应关系: 1、 HBaseAdmin关系: org.apache.hadoop.hbase.client.HBaseAdmin作用:提供了一个接口来管理 HBase 数据库的表信息。它提供的方法包括:创建表,删 除表,列出表项,使表有效或无效,
阅读全文
摘要:一、系统架构 客户端连接hbase依赖于zookeeper,hbase存储依赖于hadoop client: 1、包含访问 hbase 的接口, client 维护着一些 cache(缓存) 来加快对 hbase 的访问,比如 region 的 位置信息。 (经常使用的表的位置信息) zookeep
阅读全文
摘要:引言:过滤器的类型很多,但是可以分为两大类——比较过滤器,专用过滤器过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端; 一、hbase过滤器的分类 1、比较过滤器 行键过滤器 RowFilter Filter filter1 = new RowFilter(Compar
阅读全文
摘要:一、协处理器—Coprocessor 1、 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需 要使用 Counter 方法,执行一次 MapReduce Job 才
阅读全文
摘要:1、用sqoop 从mysql数据库导入数据到hbase时: 可以用 sqoop list-databases --connect jdbc:mysql://192.168.1.152:3306/ --username sqoop --password sqoop 测试是否可以连接到mysql数据库
阅读全文
摘要:一、建表高级属性 下面几个 shell 命令在 hbase 操作中可以起到很到的作用,且主要体现在建表的过程中,看 下面几个 create 属性 1、bloomfilter 布隆过滤器 默认是 NONE 是否使用布隆过虑及使用何种方式, 布隆过滤可以每列族单独启用 使用 HColumnDescrip
阅读全文

浙公网安备 33010602011771号