技术即艺术

2020年2月16日

摘要： 1.摘要如果要将企业应用系统按照技术或数据按时间进行划分的话，那么可以以2008年Google推出的分布式文件系统DFS为一个划分标准，2008年之前，由于通信信息技术的弊端，还属于PC互联网时代，整个互联网产生的数据和现在相比只是量级分之一，所以基本上是传统的企业应用系统，将数据存储在RDBMS 阅读全文

posted @ 2020-02-16 23:50 技术即艺术阅读(2776) 评论(0) 推荐(0)

2020年1月20日

JVM内存分配及调优方案(基于JDK1.8)

摘要： 1.前言 Java作为目前最通用的编程语言之一，而Java底层的JVM是Java编程语言的核心。不管是在企业应用系统，移动终端还是大数据领域都有很大的市场占有率。Java的扁平快受到越来越多的开发青睐，但与C/C++相比，Java语言也有些不足的地方，比如在垃圾回收机制上。什么叫垃圾回收，简单来如，阅读全文

posted @ 2020-01-20 14:44 技术即艺术阅读(6908) 评论(4) 推荐(0)

2019年12月24日

大数据之数据仓库

摘要： 1. 摘要对于大数据而言，数据仓库承载着整个企业的全业务的数据。早期数仓在关系型数据如Oracle，MySql上。到大数据时代，基于hadoop生态的大数据架构，数仓基本上都是基于hive的数仓。对于很多大数据开发者而言，特别是早期，很多开发者认为hive数仓就是和业务相关，隐射Hdfs数据文件的阅读全文

posted @ 2019-12-24 17:31 技术即艺术阅读(7637) 评论(0) 推荐(0)

2019年12月16日

clickhouse核心引擎MergeTree子引擎

摘要：在clickhouse使用过程中，针对数据量和查询场景，MergeTree是最常用也是较为合适的表引擎。针对特定的业务，MergeTree的子引擎可以针对不同的业务而定，但都基于MergeTree引擎 1. ReplacingMergeTree 说明：该引擎和MergeTree的不同之处在于它会删阅读全文

posted @ 2019-12-16 11:33 技术即艺术阅读(7080) 评论(1) 推荐(2)

2019年12月10日

clickhouse高可用-节点宕机数据一致性方案-热扩容

摘要： 1. 集群节点及服务分配说明： 1.1. 在每个节点上启动两个clickhouse服务(后面会详细介绍如何操作这一步)，一个数据分片，一个数据备份，为了确保宕机数据一致性，数据分片和数据备份不能同一节点，比如gawh201上的shard不能备份在gawh201的replica，如果这样做，当gaw 阅读全文

posted @ 2019-12-10 12:42 技术即艺术阅读(5576) 评论(6) 推荐(1)

2019年12月5日

Clickhouse集群部署

摘要： 1.集群节点信息 10.12.110.201 ch201 10.12.110.202 ch202 10.12.110.203 ch203 2. 搭建一个zookeeper集群在这三个节点搭建一个zookeeper集群(如果搭建可以直接忽略这一步),先在一个节点上根据以下配置 2.1. 下载 zoo 阅读全文

posted @ 2019-12-05 19:01 技术即艺术阅读(38516) 评论(5) 推荐(3)

2019年11月1日

Kylin-2.6.2集群部署

摘要： 1. 集群节点规划与说明说明： Kylin节点角色有三种： 2. Kylin依赖的其他大数据组件非常多，下列列表是安装kylin需要的组件 3. 在已下载解压好的目录下在rzx1节点下：说明：开发测试环境目前只安装简易版，该配置文件配置参数非常多，实际生产环境需要根据实际情况来配置 4. 在r 阅读全文

posted @ 2019-11-01 18:37 技术即艺术阅读(1518) 评论(0) 推荐(0)

hbase-2.0.4集群部署

摘要： hbase 2.0.4集群部署 1. 集群节点规划：前提：搭建好hadoop集群 2. 在rzx1节点上配置执行环境的JAVA_HOME和是否利用自带Zookeeper 在hbase目录下：其他配置参数在配置开发测试集群使用默认，生产环境根据数据量而定配置 3. 在rzx1节点上配置hbase在阅读全文

posted @ 2019-11-01 18:27 技术即艺术阅读(565) 评论(0) 推荐(0)

2019年10月15日

SparkSQL的一些用法建议和Spark的性能优化

摘要： 1.写在前面 Spark是专为大规模数据处理而设计的快速通用的计算引擎,在计算能力上优于MapReduce，被誉为第二代大数据计算框架引擎。Spark采用的是内存计算方式。Spark的四大核心是Spark RDD(Spark core)，SparkSQL，Spark Streaming，Spark 阅读全文

posted @ 2019-10-15 16:20 技术即艺术阅读(12611) 评论(0) 推荐(0)

2019年6月18日

利用SparkSQL(java版)将离线数据或实时流数据写入hive的用法及坑点

摘要： 1. 通常利用SparkSQL将离线或实时流数据的SparkRDD数据写入Hive,一般有两种方法。第一种是利用org.apache.spark.sql.types.StructType和org.apache.spark.sql.types.DataTypes来映射拆分RDD的值；第二种方法是利用r 阅读全文

posted @ 2019-06-18 16:25 技术即艺术阅读(7936) 评论(0) 推荐(0)

公告