会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
技术即艺术
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2020年2月16日
大数据之优化
摘要: 1.摘要 如果要将企业应用系统按照技术或数据按时间进行划分的话,那么可以以2008年Google推出的分布式文件系统DFS为一个划分标准,2008年之前,由于通信信息技术的弊端,还属于PC互联网时代,整个互联网产生的数据和现在相比只是量级分之一,所以基本上是传统的企业应用系统,将数据存储在RDBMS
阅读全文
posted @ 2020-02-16 23:50 技术即艺术
阅读(2763)
评论(0)
推荐(0)
2020年1月20日
JVM内存分配及调优方案(基于JDK1.8)
摘要: 1.前言 Java作为目前最通用的编程语言之一,而Java底层的JVM是Java编程语言的核心。不管是在企业应用系统,移动终端还是大数据领域都有很大的市场占有率。Java的扁平快受到越来越多的开发青睐,但与C/C++相比,Java语言也有些不足的地方,比如在垃圾回收机制上。什么叫垃圾回收,简单来如,
阅读全文
posted @ 2020-01-20 14:44 技术即艺术
阅读(6902)
评论(4)
推荐(0)
2019年12月24日
大数据之数据仓库
摘要: 1. 摘要 对于大数据而言,数据仓库承载着整个企业的全业务的数据。早期数仓在关系型数据如Oracle,MySql上。到大数据时代,基于hadoop生态的大数据架构,数仓基本上都是基于hive的数仓。对于很多大数据开发者而言,特别是早期,很多开发者认为hive数仓就是和业务相关,隐射Hdfs数据文件的
阅读全文
posted @ 2019-12-24 17:31 技术即艺术
阅读(7634)
评论(0)
推荐(0)
2019年12月16日
clickhouse核心引擎MergeTree子引擎
摘要: 在clickhouse使用过程中,针对数据量和查询场景,MergeTree是最常用也是较为合适的表引擎。针对特定的业务,MergeTree的子引擎可以针对不同的业务而定,但都基于MergeTree引擎 1. ReplacingMergeTree 说明: 该引擎和MergeTree的不同之处在于它会删
阅读全文
posted @ 2019-12-16 11:33 技术即艺术
阅读(7052)
评论(1)
推荐(2)
2019年12月10日
clickhouse高可用-节点宕机数据一致性方案-热扩容
摘要: 1. 集群节点及服务分配 说明: 1.1. 在每个节点上启动两个clickhouse服务(后面会详细介绍如何操作这一步),一个数据分片,一个数据备份,为了确保宕机数据一致性,数据分片和数据备份不能同一节点,比如gawh201上的shard不能备份在gawh201的replica,如果这样做,当gaw
阅读全文
posted @ 2019-12-10 12:42 技术即艺术
阅读(5566)
评论(6)
推荐(1)
2019年12月5日
Clickhouse集群部署
摘要: 1.集群节点信息 10.12.110.201 ch201 10.12.110.202 ch202 10.12.110.203 ch203 2. 搭建一个zookeeper集群 在这三个节点搭建一个zookeeper集群(如果搭建可以直接忽略这一步),先在一个节点上根据以下配置 2.1. 下载 zoo
阅读全文
posted @ 2019-12-05 19:01 技术即艺术
阅读(38503)
评论(5)
推荐(3)
2019年11月1日
Kylin-2.6.2集群部署
摘要: 1. 集群节点规划与说明 说明: Kylin节点角色有三种: 2. Kylin依赖的其他大数据组件非常多,下列列表是安装kylin需要的组件 3. 在已下载解压好的目录下 在rzx1节点下: 说明:开发测试环境目前只安装简易版,该配置文件配置参数非常多,实际生产环境需要根据实际情况来配置 4. 在r
阅读全文
posted @ 2019-11-01 18:37 技术即艺术
阅读(1517)
评论(0)
推荐(0)
hbase-2.0.4集群部署
摘要: hbase 2.0.4集群部署 1. 集群节点规划: 前提:搭建好hadoop集群 2. 在rzx1节点上配置执行环境的JAVA_HOME和是否利用自带Zookeeper 在hbase目录下: 其他配置参数在配置开发测试集群使用默认,生产环境根据数据量而定配置 3. 在rzx1节点上配置hbase在
阅读全文
posted @ 2019-11-01 18:27 技术即艺术
阅读(565)
评论(0)
推荐(0)
2019年10月15日
SparkSQL的一些用法建议和Spark的性能优化
摘要: 1.写在前面 Spark是专为大规模数据处理而设计的快速通用的计算引擎,在计算能力上优于MapReduce,被誉为第二代大数据计算框架引擎。Spark采用的是内存计算方式。Spark的四大核心是Spark RDD(Spark core),SparkSQL,Spark Streaming,Spark
阅读全文
posted @ 2019-10-15 16:20 技术即艺术
阅读(12605)
评论(0)
推荐(0)
2019年6月18日
利用SparkSQL(java版)将离线数据或实时流数据写入hive的用法及坑点
摘要: 1. 通常利用SparkSQL将离线或实时流数据的SparkRDD数据写入Hive,一般有两种方法。第一种是利用org.apache.spark.sql.types.StructType和org.apache.spark.sql.types.DataTypes来映射拆分RDD的值;第二种方法是利用r
阅读全文
posted @ 2019-06-18 16:25 技术即艺术
阅读(7916)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告