该文被密码保护。
posted @ 2010-03-12 11:19 Alamps 阅读(10) 评论(1) 编辑
正文内容加载中...
posted @ 2018-02-13 16:34 Alamps 阅读(2) 评论(0) 编辑
摘要: 调优手段 (1)利用列裁剪 当待查询的表字段较多时,选取需要使用的字段进行查询,避免直接select *出大表的所有字段,以免当使用Beeline查询时控制台输出缓冲区被大数据量撑爆。 (2)JOIN避免笛卡尔积 JOIN场景应严格避免出现笛卡尔积的情况。参与笛卡尔积JOIN的两个表,交叉关联后的数据条数是两个原表记录数之积,对于JOIN后还有聚合的场景而言,会导致reduce端处理的数...阅读全文
posted @ 2018-02-13 16:21 Alamps 阅读(2) 评论(0) 编辑
摘要: 一、系统架构 客户端连接hbase依赖于zookeeper,hbase存储依赖于hadoop client: 1、包含访问 hbase 的接口, client 维护着一些 cache(缓存) 来加快对 hbase 的访问,比如 region 的 位置信息。 (经常使用的表的位置信息) zookeep阅读全文
posted @ 2018-02-12 11:16 Alamps 阅读(3) 评论(0) 编辑
摘要: Hbaseflush处理流程 flush的处理是个生产者消费者模式,通过MemStoreFlusher.requestFlush或者requestDelayedFlush来收集请求,通过多个FlushHandler(个数由参数hbase.hstore.flusher.count配置默认值2)来进行flush处理。使用的消息队列是用的DelayQueue flush前会对region的状态做一些...阅读全文
posted @ 2018-02-12 10:13 Alamps 阅读(0) 评论(0) 编辑
摘要: 范式:英文名称是 Normal Form,它是英国人 E.F.Codd(关系数据库的老祖宗)在上个世纪70年代提出关系数据库模型后总结出来的,范式是关系数据库理论的基础,也是我们在设计数据库结构过程中所要遵循的规则和指导方法。目前有迹可寻的共有8种范式,依次是:1NF,2NF,3NF,BCNF,4NF,5NF,DKNF,6NF。通常所用到的只是前三个范式,即:第一范式(1NF),第二范式(2NF...阅读全文
posted @ 2018-02-12 10:07 Alamps 阅读(2) 评论(0) 编辑
摘要: package egsql import java.util.Properties import com.sun.org.apache.xalan.internal.xsltc.compiler.util.IntType import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SparkSession} im...阅读全文
posted @ 2018-01-29 20:29 Alamps 阅读(6) 评论(0) 编辑
摘要: package dataframe import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} //// Explore interoperability between DataFrame and Dataset. Note tha阅读全文
posted @ 2018-01-23 09:19 Alamps 阅读(13) 评论(0) 编辑
摘要: package storm; import org.apache.storm.Config;import org.apache.storm.StormSubmitter;import org.apache.storm.generated.StormTopology;import org.apache阅读全文
posted @ 2018-01-18 18:52 Alamps 阅读(13) 评论(0) 编辑
摘要: [root@alamps TestDir]# hadoop fs -chown hadoop:hadoop hdfs://alamps:9000/library/SparkStreaming/data/[root@alamps TestDir]# hadoop fs -chown hadoop:ha阅读全文
posted @ 2018-01-13 15:57 Alamps 阅读(10) 评论(0) 编辑
摘要: 1: Exception in thread "main" org.apache.spark.SparkException: org.apache.spark.streaming.dstream.MappedDStream@5a69b104 has not been initialized 原因: StreamingContext.checkpoint(...)指定的checkpoint目录下...阅读全文
posted @ 2018-01-13 15:53 Alamps 阅读(3) 评论(0) 编辑