多弗朗明哥

2019年9月5日

摘要：第1章 ClickHouse概述 1.1 什么是ClickHouse ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。 1.2 什么是列式存储以下面的表为例： Id Name A 阅读全文

posted @ 2019-09-05 11:22 多弗朗明哥阅读(5623) 评论(0) 推荐(0)

2019年4月22日

【Mysql】根据时间去除重复数据

摘要：建表语句如下： xiaomin重复，根据版本app_version去重，去版本大的阅读全文

posted @ 2019-04-22 17:14 多弗朗明哥阅读(3553) 评论(0) 推荐(0)

2019年3月19日

【大数据】Sqoop学习笔记

摘要：第1章 Sqoop简介 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS 阅读全文

posted @ 2019-03-19 11:23 多弗朗明哥阅读(644) 评论(0) 推荐(0)

2019年3月8日

【大数据】Scala学习笔记

摘要：第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 3 1.5 Windows下搭建Scala开发环境 4 1.6 Linux下搭建Scala开发环境阅读全文

posted @ 2019-03-08 17:28 多弗朗明哥阅读(1633) 评论(0) 推荐(0)

2019年3月4日

【大数据】Hive学习笔记

摘要：第1章 Hive基本概念 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在阅读全文

posted @ 2019-03-04 13:54 多弗朗明哥阅读(1565) 评论(0) 推荐(0)

【大数据】Zookeeper学习笔记

摘要：第1章 Zookeeper入门 1.1 概述 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 1.2 特点 1.3 数据结构 1.4 应用场景提供的服务包括：统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。 1.5 下载地址 1．阅读全文

posted @ 2019-03-04 11:20 多弗朗明哥阅读(449) 评论(0) 推荐(0)

2019年2月25日

【大数据】Spark性能优化和故障处理

摘要：第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spa 阅读全文

posted @ 2019-02-25 11:58 多弗朗明哥阅读(2840) 评论(0) 推荐(0)

【大数据】Spark内核解析

摘要： 1. Spark 内核概述 Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理，能够帮助我们更好地完成Spark代码设计，并能够帮助我们准确锁定项目运行过程中出现的问阅读全文

posted @ 2019-02-25 11:57 多弗朗明哥阅读(1319) 评论(0) 推荐(0)

【大数据】SparkStreaming学习笔记

摘要：第1章 Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spar 阅读全文

posted @ 2019-02-25 11:56 多弗朗明哥阅读(800) 评论(0) 推荐(0)

【大数据】SparkSql学习笔记

摘要：第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和 DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提阅读全文

posted @ 2019-02-25 11:55 多弗朗明哥阅读(1571) 评论(0) 推荐(0)

公告