大数据 - 随笔分类 - jareny

flink专题

摘要：一、Storm （一）什么是Storm? Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流阅读全文

posted @ 2019-05-01 14:25 jareny 阅读(1236) 评论(0) 推荐(0)

kafka专题-1

摘要：大数据技术之Kafka一 Kafka概述 1.1 Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2）Kafka最初是由阅读全文

posted @ 2019-05-01 14:24 jareny 阅读(270) 评论(0) 推荐(0)

docker专题

摘要：git 版本控制系统 git是一个版本控制系统一、什么是版本控制系统？ 1、概念版本控制是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统。（*）记录文件的所有历史变化（*）随时可恢复到任何一个历史状态（*）多人协作开发或修改（*）错误恢复（*）多功能并行开发产品阅读全文

posted @ 2019-05-01 14:23 jareny 阅读(129) 评论(0) 推荐(0)

git专题

摘要：git 版本控制系统 git是一个版本控制系统一、什么是版本控制系统？ 1、概念版本控制是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统。（*）记录文件的所有历史变化（*）随时可恢复到任何一个历史状态（*）多人协作开发或修改（*）错误恢复（*）多功能并行开发产品阅读全文

posted @ 2019-05-01 14:22 jareny 阅读(142) 评论(0) 推荐(0)

kafka专题

摘要：Kafka 一、Kafka是什么 kafka一般用来缓存数据。 1、开源消息系统 2、最初是LinkedIn公司开发，2011年开源。2012年10月从Apache Incubator毕业。项目目标是为处理实时数据，提供一个统一、高通量、低等待的平台。 3、Kafka是一个分布式消息队列。消息根阅读全文

posted @ 2019-05-01 14:22 jareny 阅读(131) 评论(0) 推荐(0)

HA专题

摘要：Hadoop Hbase HA 保证服务器时间相同date -s 2019-04-21 把所有机器时间设置成00:00:00 一、Hadoop HA HDFS HA /usr/local/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件 core-site.xml <co 阅读全文

posted @ 2019-05-01 14:21 jareny 阅读(119) 评论(0) 推荐(0)

内存数据库专题-5

摘要：内存数据库专题为什么要把数据存入内存？快常见的内存数据库： MemCached：看成Redis前身，严格来说，MemCached不能叫数据库，只能叫缓存不支持持久化。如果内存停电，数据丢失。 Redis：内存数据库，支持持久化，支持HA Oracle TimesTen session一致性阅读全文

posted @ 2019-05-01 14:20 jareny 阅读(145) 评论(0) 推荐(0)

内存数据库专题-3

摘要：SparkGraphX 应用解析目录第1章 Spark GraphX概述3 1.1 什么是Spark GraphX 3 1.2 弹性分布式属性图 5 1.3 运行图计算程序 7 第2章 Spark GraphX解析10 2.1 存储模式 10 2.1.1 图存储模式 10 2.1.2 Grap 阅读全文

posted @ 2019-05-01 14:17 jareny 阅读(369) 评论(0) 推荐(0)

内存数据库专题-4

摘要：内存数据库专题为什么要把数据存入内存？快常见的内存数据库： MemCached：看成Redis前身，严格来说，MemCached不能叫数据库，只能叫缓存不支持持久化。如果内存停电，数据丢失。 Redis：内存数据库，支持持久化，支持HA Oracle TimesTen session一致性阅读全文

posted @ 2019-05-01 14:17 jareny 阅读(130) 评论(0) 推荐(0)

内存数据库专题-2

摘要：内存数据库专题为什么要把数据存入内存？快常见的内存数据库： MemCached：看成Redis前身，严格来说，MemCached不能叫数据库，只能叫缓存不支持持久化。如果内存停电，数据丢失。 Redis：内存数据库，支持持久化，支持HA Oracle TimesTen session一致性阅读全文

posted @ 2019-05-01 14:15 jareny 阅读(99) 评论(0) 推荐(0)

内存数据库专题-1

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark Streaming Spark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Sp 阅读全文

posted @ 2019-05-01 14:14 jareny 阅读(174) 评论(0) 推荐(0)

Spark MLlib GraphX-1

摘要：SparkGraphX 应用解析目录第1章 Spark GraphX概述3 1.1 什么是Spark GraphX 3 1.2 弹性分布式属性图 5 1.3 运行图计算程序 7 第2章 Spark GraphX解析10 2.1 存储模式 10 2.1.1 图存储模式 10 2.1.2 Grap 阅读全文

posted @ 2019-05-01 14:11 jareny 阅读(614) 评论(0) 推荐(0)

Spark MLlib GraphX

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark Streaming Spark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Sp 阅读全文

posted @ 2019-05-01 14:10 jareny 阅读(252) 评论(0) 推荐(0)

Spark-Streaming进阶与Spark优化

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark Streaming Spark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Sp 阅读全文

posted @ 2019-05-01 14:09 jareny 阅读(542) 评论(0) 推荐(0)

Spark-Streaming基础