随笔分类 -  大数据

摘要:ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接 阅读全文
posted @ 2019-07-27 13:47 JinLoooong 阅读(983) 评论(0) 推荐(0)
摘要:在网上有很多那种ES步骤和问题的解决 方案的,不过没有一个详细的整合,和问题的梳理;我就想着闲暇之余,来记录一下自己安装的过程以及碰到的问题和心得;有什么不对的和问题希望及时拍砖。 第一步:环境 linux 系统 Java 1.8.0_151 elasticsearch-5.6.3 第二步:下载 2 阅读全文
posted @ 2019-04-12 15:45 JinLoooong 阅读(476) 评论(0) 推荐(0)
摘要:为什么需要 Stream Stream 作为 Java 8 的一大亮点,它与 java.io 包里的 InputStream 和 OutputStream 是完全不同的概念。它也不同于 StAX 对 XML 解析的 Stream,也不是 Amazon Kinesis 对大数据实时处理的 Stream 阅读全文
posted @ 2018-01-16 13:16 JinLoooong 阅读(4789) 评论(1) 推荐(1)
摘要:1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此阶段可解决的现实问题: 搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对 阅读全文
posted @ 2017-08-09 11:24 JinLoooong 阅读(242) 评论(0) 推荐(0)
摘要:Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Ooz 阅读全文
posted @ 2017-08-09 11:21 JinLoooong 阅读(169) 评论(0) 推荐(0)