随笔分类 -  大数据组件

摘要:1、什么是Neo4j Neo4j是由java实现的开源NOSQL图数据库 数据库分为关系型和非关系型两种类型。 其中非关系型又分为Graph(图形),Document(文档),Cloumn Family(列式),以及Key-Value Store(KV), 这四种类型数据库分别使用不同的数据结构进行 阅读全文
posted @ 2018-12-14 09:59 一心行走 阅读(1286) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2018-11-21 16:39 一心行走 阅读(4) 评论(0) 推荐(0)
摘要:1、离线计算是什么 离线计算:批量获取数据,批量传输数据,周期性批量计算数据,数据展示 代表技术:sqoop批量导入数据,hdfs批量存储数据,mapreduce批量计算数据,hive批量计算数据,***任务调度 2、流式就算是什么 流式计算:数据实时产生,数据实时传输,数据实时计算,实时展示 代表 阅读全文
posted @ 2018-11-04 18:34 一心行走 阅读(1965) 评论(0) 推荐(0)
摘要:1、什么是Hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统, hbase是列式的分布式数据库 1.2、HBASE优势: 1)线性扩展,随着数据量增多可以通过节点扩展进行支撑 2)数据存储在hdfs上,备份机制健全 3)通过zookeeper协调查找数据,访问速度块 1.3 阅读全文
posted @ 2018-11-04 18:02 一心行走 阅读(1152) 评论(0) 推荐(0)
摘要:sqoop数据迁移1、简介 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 2、工作机制 将导入 阅读全文
posted @ 2018-11-04 17:50 一心行走 阅读(2149) 评论(0) 推荐(0)
摘要:工作流调度器azkaban1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执 阅读全文
posted @ 2018-11-04 17:43 一心行走 阅读(1502) 评论(0) 推荐(0)
摘要:1、日志采集框架Flume 1.1 Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、 kafka等众多外部存储系统中 一般的采集需求,通过对 阅读全文
posted @ 2018-11-04 17:35 一心行走 阅读(2327) 评论(0) 推荐(0)
摘要:1、什么是Hive hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表 并提供类sql查询功能 2、为什么要用Hive 1、直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 2、为什么要使用Hiv 阅读全文
posted @ 2018-11-04 17:27 一心行走 阅读(13601) 评论(0) 推荐(1)
摘要:1、 什么是Mapreduce Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序, 并发运行在一个hadoop集群上; 2、Mapreduce框 阅读全文
posted @ 2018-11-04 17:01 一心行走 阅读(1623) 评论(0) 推荐(0)
摘要:1、HDFS的概念和特性 它是一个文件系统,其次是分布式的 重要特性: 1).HDFS中的文件在物理上是分块存储(block),新版默认128M 2).客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data 3).目录结构及文 阅读全文
posted @ 2018-11-04 16:49 一心行走 阅读(1094) 评论(0) 推荐(0)
摘要:1、什么是Hadoop 1). HADOOP是apache旗下的一套开源软件平台 2). HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3). HADOOP的核心组件有 A). HDFS(分布式文件系统) B). YARN(运算资源调度系统) C). M 阅读全文
posted @ 2018-11-04 16:36 一心行走 阅读(1111) 评论(0) 推荐(0)
摘要:1、什么是Neo4j Neo4j是由java实现的开源NOSQL图数据库 数据库分为关系型和非关系型两种类型。 其中非关系型又分为Graph(图形),Document(文档),Cloumn Family(列式),以及Key-Value Store(KV), 这四种类型数据库分别使用不同的数据结构进行 阅读全文
posted @ 2018-11-02 17:34 一心行走 阅读(3973) 评论(1) 推荐(0)
摘要:1、ES 内存调优: vi config/jvm.options -Xms16g -Xmx16g 2、Zookeeper参数配置调优 2.1\在conf目录下 vi java.env export JVMFLAGS="-Xms2048m -Xmx2048m $JVMFLAGS" 2.2\调优相关zo 阅读全文
posted @ 2018-07-20 15:22 一心行走 阅读(277) 评论(0) 推荐(0)
摘要:直接上代码进行验证吧 阅读全文
posted @ 2018-05-02 12:28 一心行走 阅读(634) 评论(0) 推荐(0)
摘要:1、布隆过滤器是什么? 又快又小的处理方法 布隆过滤器(Bloom Filter):是一种空间效率极高的概率型算法和数据结构,用于判断一个元素是否在集合中(类似Hashset)。 它的核心一个很长的二进制向量和一系列hash函数 数组长度以及hash函数的个数都是动态确定的。 Hash函数:SHA1 阅读全文
posted @ 2018-05-02 12:06 一心行走 阅读(7183) 评论(1) 推荐(1)
摘要:1、下载jstorm的jar包 https://github.com/alibaba/jstorm/releases 2、解压jstorm的包 tar -xvf jstorm-2.4.0.tgz mv jstorm-2.4.0 jstorm 修改环境变量: vi /etc/profile expor 阅读全文
posted @ 2018-01-06 16:01 一心行走 阅读(1228) 评论(0) 推荐(0)
摘要:附录:Metrics含义 MemoryUsed cluster/topology/worker使用到的物理内存HeapMemory cluster/topology/worker JVM使用到的堆内存CpuUsedRatio cluster/topology/worker cpu利用率,62.000 阅读全文
posted @ 2018-01-06 15:55 一心行走 阅读(1299) 评论(0) 推荐(0)
摘要:Jstorm的性能测试 JStorm 大概是Apache Storm 4倍, Apache Flink 1.5 倍, Twitter Heron 2 ~ 10 倍 Jstorm是一个分布式实时计算引擎Jstorm是一个类似Hadoop Mapreduce的系统。7*24小时运行其中一个worker发 阅读全文
posted @ 2018-01-06 15:53 一心行走 阅读(543) 评论(0) 推荐(0)
摘要:1、Storm基础概念 1.1、什么是storm? Apache Storm is a free and open source distributed realtime computation system. Storm是免费开源的分布式实时计算系统 实时和离线的区别: 1 离线计算:批量获取数据 阅读全文
posted @ 2018-01-02 11:42 一心行走 阅读(443) 评论(0) 推荐(0)
摘要:准备工作: 1、安装Kafka,启动,以及创建相应的topic 2、安装Python以及pip pip install apache-log-parser 3、创建并修改 Fake-Apache-Log-Generator Fake-Apache-Log-Generator is not prese 阅读全文
posted @ 2017-12-29 16:57 一心行走 阅读(447) 评论(0) 推荐(0)