会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
多弗朗明哥
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
···
10
下一页
2019年9月5日
【大数据】Clickhouse基础知识
摘要: 第1章 ClickHouse概述 1.1 什么是ClickHouse ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 1.2 什么是列式存储 以下面的表为例: Id Name A
阅读全文
posted @ 2019-09-05 11:22 多弗朗明哥
阅读(5600)
评论(0)
推荐(0)
2019年4月22日
【Mysql】根据时间去除重复数据
摘要: 建表语句如下: xiaomin重复,根据版本app_version去重,去版本大的
阅读全文
posted @ 2019-04-22 17:14 多弗朗明哥
阅读(3536)
评论(0)
推荐(0)
2019年3月19日
【大数据】Sqoop学习笔记
摘要: 第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS
阅读全文
posted @ 2019-03-19 11:23 多弗朗明哥
阅读(634)
评论(0)
推荐(0)
2019年3月8日
【大数据】Scala学习笔记
摘要: 第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 3 1.5 Windows下搭建Scala开发环境 4 1.6 Linux下搭建Scala开发环境
阅读全文
posted @ 2019-03-08 17:28 多弗朗明哥
阅读(1616)
评论(0)
推荐(0)
2019年3月4日
【大数据】Hive学习笔记
摘要: 第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在
阅读全文
posted @ 2019-03-04 13:54 多弗朗明哥
阅读(1547)
评论(0)
推荐(0)
【大数据】Zookeeper学习笔记
摘要: 第1章 Zookeeper入门 1.1 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 1.2 特点 1.3 数据结构 1.4 应用场景 提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。 1.5 下载地址 1.
阅读全文
posted @ 2019-03-04 11:20 多弗朗明哥
阅读(439)
评论(0)
推荐(0)
2019年2月25日
【大数据】Spark性能优化和故障处理
摘要: 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使用脚本提交Spa
阅读全文
posted @ 2019-02-25 11:58 多弗朗明哥
阅读(2786)
评论(0)
推荐(0)
【大数据】Spark内核解析
摘要: 1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问
阅读全文
posted @ 2019-02-25 11:57 多弗朗明哥
阅读(1299)
评论(0)
推荐(0)
【大数据】SparkStreaming学习笔记
摘要: 第1章 Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spar
阅读全文
posted @ 2019-02-25 11:56 多弗朗明哥
阅读(778)
评论(0)
推荐(0)
【大数据】SparkSql学习笔记
摘要: 第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提
阅读全文
posted @ 2019-02-25 11:55 多弗朗明哥
阅读(1552)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
10
下一页
公告