随笔分类 - 大数据学习
Hadoop Spark等
摘要:概述 什么是 Spark Streaming? Spark Streaming is an extension of the core Spark API that enables scalable, high throughput, fault tolerant stream processing
阅读全文
摘要:写在前面 Elastic Static 是指由Elasticsearch,Logstash,Kibana,Beats等组件结合起来而构成的一个数据收集,分析,可视化的一个架构.我们经常听说过的ELK就是指前面三个,它能够安全可靠地获取任何来源、任何格式的数据,并且能够实时地对数据进行搜索、分析和可视
阅读全文
摘要:写在前面 常说:"工欲善其事必先利其器",这话想想也是一点毛病也没有,在开始学习任何技术之前,我们总得有一个实际可供操作的实验环境.有人说,"看十遍不如用一遍",我想大概就是这个道理.废话不多说,直接开始. 实验环境 CentOs7.2 JDK1.8及其以上 node v8.10.0 linux x
阅读全文
摘要:```
package com.csylh; import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.spout.SpoutOutputCollector;
import org.apache.storm.task.OutputCollector;
import o...
阅读全文
摘要:词频统计 1.需求:读取指定目录的数据,并且实现单词计数功能 2.实现方案: Spout用于读取指定文件夹(目录),读取文件,将文件的每一行发射到Bolt SplitBolt用于接收Spout发射过来的数据,并拆分,发射到CountBolt CountBolt接收SplitBolt发送的每一个单词,
阅读全文
摘要:写在前面 记录一下,一个简单的cloudera处理平台的构建过程和一些基本组件的使用 前置说明 需要一台安装有Docker的机器 docker常用命令: 启动cloudera 这个时候假如你想登录HUE界面进行操作,可能你不知道账户密码,可以使用下面操作完成: 接着:介绍一些简单的组件操作方式: s
阅读全文
摘要:HDFS:分布式文件系统 一句话总结 一个文件先被拆分为多个Block块(会有Block ID:方便读取数据),以及每个Block是有几个副本的形式存储 1个文件会被拆分成多个Block blocksize:128M(Hadoop2.0以后默认的块大小,可以自定义配置) 130M == 2个Bloc
阅读全文
摘要:MapReduce概述 Google MapReduce的克隆版本 优点:海量数据的离线处理,易开发,易运行 缺点:实时流式计算 Hadoop MapReduce是一个软件框架,用于轻松编写应用程序,以可靠,容错的方式在大型集群(数千个节点)的商用硬件上并行处理大量数据(多TB数据集) MapRed
阅读全文
摘要:YARN概述 Yet Another Resource Negotiator:另外资源的协调者 通用的资源管理系统 为上层应用提供统一的资源管理和调度 操作系统级别的调度框架,可以让各种计算框架运行在上面 YARN:不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度 XXX on Y
阅读全文
摘要:写在前面 什么是用户行为日志呢?其实也叫做用户行为轨迹,流量日志等。简单来说,就是用户每次访问网站产生的行为数据(访问,浏览,搜索,点击等)。基本上,只要你访问了任何一个网站,该网站都会有你的行为记录。 当然,日志也是一个很大的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的
阅读全文
摘要:## Hive环境搭建1. hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive
阅读全文

浙公网安备 33010602011771号