随笔分类 -  大数据组件

摘要:一.数据处理架构 如图,数据流转主要有两条线,实时计算流程和离线计算流程 实时计算:事件(hive表) (使用dw-event-to-collector.sh发送事件) >收数工具collector >flume分发 >kafka缓存 >flink计算 >hbase >elasticsearch 离 阅读全文
posted @ 2019-07-31 18:57 番薯大大 阅读(2905) 评论(0) 推荐(0)
摘要:1.什么的cache 是一种更快的记忆存储数据集 存储空间有限 储存一部分重要数据 是一种相对的概念,只要比原本数据存储更快的介质就能作为cache 2.caching 策略 有限的存储空间,只能存储部分常用数据 FIFO LRU LFU Time_based expriation 没隔一段时间数据 阅读全文
posted @ 2019-06-17 20:13 番薯大大 阅读(551) 评论(0) 推荐(0)
摘要:1.spark 开源的分布式cluster(集群)运算框架 2.spark相对于Hadoop的优势 数据处理逻辑的代码非常简短 提供很多转换和动作,而hadoop只提供Map和Reduce,表达力欠缺 一个job可以包含多个转换操作,在调度时可以生成多个stage,多个map操作的RDD分区不变,可 阅读全文
posted @ 2019-06-01 10:20 番薯大大 阅读(344) 评论(0) 推荐(0)
摘要:1.大数据存储中,数据基础结构各层中常遇到的问题: 消化层ingestion layer(kafka): 高吞吐量,简单的处理逻辑,不能长期存储数据 存储层storage layer:高可靠性,高防灾性,能处理大量数据,处理多种格式数据 2.存储层的OLTP和OLAP: OLTP:online tr 阅读全文
posted @ 2019-05-22 19:54 番薯大大 阅读(189) 评论(0) 推荐(0)
摘要:1.hadoop是一个大数据运算框架,使用降维计算,例如乘法转化为加法,然后使用分布式并行运算 2.HDFS正是Hadoop中用来存储大数据的,是主从模式 3.数据分隔存储再block,namenode记录数据目录,存储在哪个datanode中,datanode存储真实数据,为避免数据丢失同一份数据 阅读全文
posted @ 2019-05-15 20:15 番薯大大 阅读(174) 评论(0) 推荐(0)
摘要:一.大数据组件分类: 1.计算类: hadoop,spark,flink,hive 2.传输类:kafka,flume,redis 3.存储类:hbase,mongodb,Cassandra 4.调度类:zookeeper 5.配置类:mesos,yarn 二.流行的框架SMACK Spark Me 阅读全文
posted @ 2019-05-10 20:05 番薯大大 阅读(4085) 评论(0) 推荐(0)
摘要:一.数据运输面临问题 1.数据来源不同,webserver,物联网,用户行为/接口数据等 2.数据速度快 3.数据量大 二.message queue信息队列 1.各个系统隔离,挂一个不影响 2.增加可扩展性 3.消息广播,告诉每一台机器 4.容易处理数据高峰 5.缓存失败的数据 三.message 阅读全文
posted @ 2019-05-10 20:02 番薯大大 阅读(180) 评论(0) 推荐(0)
摘要:一.分布式主从模式 1.主机选举: 整个系统初始化时和现有主机崩溃时 2.主机master崩溃:crash detection检测主机是否崩溃 3.节点worker崩溃:group membership主机把特定的任务分给特定的worker 4.主从机联系崩溃:metadata management 阅读全文
posted @ 2019-05-05 20:41 番薯大大 阅读(197) 评论(0) 推荐(0)
摘要:描述: azkaban主要用于离线计算任务的调度 说明: 此处Azkaban选择版本为:3.52.0,部署方式为Cluster模式,即支持多Executor计算节点,目前默认安装方式选择在同一台机器上安装web/executor两个服务。 安装步骤: 解压安装包中的azkaban目录下的`azkab 阅读全文
posted @ 2019-01-19 10:57 番薯大大 阅读(456) 评论(0) 推荐(0)
摘要:此redis用来缓存跨屏账户绑定信息,安装步骤如下: ssh root@redis.td.com ,注意是root用户 tar -xzvf /nfs/install/softs/redis-3.0.4.tar.gz -C /opt cd /opt/redis-3.0.4 yum install gc 阅读全文
posted @ 2018-10-24 17:46 番薯大大 阅读(878) 评论(0) 推荐(0)