大数据学习 - 随笔分类(第2页) - liuge36

Spark Streaming 入门

摘要：概述什么是 Spark Streaming? Spark Streaming is an extension of the core Spark API that enables scalable, high throughput, fault tolerant stream processing 阅读全文

posted @ 2018-10-31 14:38 liuge36 阅读(163) 评论(0) 推荐(0)

Elastic Static初识(01)

摘要：写在前面 Elastic Static 是指由Elasticsearch，Logstash，Kibana,Beats等组件结合起来而构成的一个数据收集，分析，可视化的一个架构.我们经常听说过的ELK就是指前面三个,它能够安全可靠地获取任何来源、任何格式的数据，并且能够实时地对数据进行搜索、分析和可视阅读全文

posted @ 2018-10-31 14:35 liuge36 阅读(238) 评论(0) 推荐(0)

环境搭建-ELK单节点环境搭建(02)

摘要：写在前面常说:"工欲善其事必先利其器",这话想想也是一点毛病也没有,在开始学习任何技术之前,我们总得有一个实际可供操作的实验环境.有人说,"看十遍不如用一遍",我想大概就是这个道理.废话不多说,直接开始. 实验环境 CentOs7.2 JDK1.8及其以上 node v8.10.0 linux x 阅读全文

posted @ 2018-10-31 14:34 liuge36 阅读(546) 评论(0) 推荐(0)

使用Storm实现累加求和操作

摘要：``` package com.csylh; import org.apache.storm.Config; import org.apache.storm.LocalCluster; import org.apache.storm.spout.SpoutOutputCollector; import org.apache.storm.task.OutputCollector; import o... 阅读全文

posted @ 2018-10-31 14:15 liuge36 阅读(221) 评论(0) 推荐(0)

使用Storm进行词频统计

摘要：词频统计 1.需求:读取指定目录的数据,并且实现单词计数功能 2.实现方案: Spout用于读取指定文件夹(目录),读取文件,将文件的每一行发射到Bolt SplitBolt用于接收Spout发射过来的数据,并拆分,发射到CountBolt CountBolt接收SplitBolt发送的每一个单词, 阅读全文

posted @ 2018-10-31 14:13 liuge36 阅读(541) 评论(0) 推荐(0)

在Docker中启动Cloudera

摘要：写在前面记录一下，一个简单的cloudera处理平台的构建过程和一些基本组件的使用前置说明需要一台安装有Docker的机器 docker常用命令：启动cloudera 这个时候假如你想登录HUE界面进行操作，可能你不知道账户密码，可以使用下面操作完成：接着：介绍一些简单的组件操作方式: s 阅读全文

posted @ 2018-10-31 14:11 liuge36 阅读(611) 评论(0) 推荐(0)

Hadoop核心组件之HDFS

摘要：HDFS：分布式文件系统一句话总结一个文件先被拆分为多个Block块（会有Block ID：方便读取数据），以及每个Block是有几个副本的形式存储 1个文件会被拆分成多个Block blocksize：128M（Hadoop2.0以后默认的块大小，可以自定义配置） 130M == 2个Bloc 阅读全文

posted @ 2018-10-31 14:09 liuge36 阅读(316) 评论(0) 推荐(0)

Hadoop核心组件之MapReduce

摘要：MapReduce概述 Google MapReduce的克隆版本优点：海量数据的离线处理，易开发，易运行缺点：实时流式计算 Hadoop MapReduce是一个软件框架，用于轻松编写应用程序，以可靠，容错的方式在大型集群（数千个节点）的商用硬件上并行处理大量数据（多TB数据集） MapRed 阅读全文

posted @ 2018-10-31 14:08 liuge36 阅读(261) 评论(0) 推荐(0)

Hadoop核心组件之YARN

摘要：YARN概述 Yet Another Resource Negotiator:另外资源的协调者通用的资源管理系统为上层应用提供统一的资源管理和调度操作系统级别的调度框架，可以让各种计算框架运行在上面 YARN：不同计算框架可以共享同一个HDFS集群上的数据，享受整体的资源调度 XXX on Y 阅读全文

posted @ 2018-10-31 14:08 liuge36 阅读(552) 评论(0) 推荐(0)

用户行为日志概述

摘要：写在前面什么是用户行为日志呢？其实也叫做用户行为轨迹，流量日志等。简单来说，就是用户每次访问网站产生的行为数据（访问，浏览，搜索，点击等）。基本上，只要你访问了任何一个网站，该网站都会有你的行为记录。当然，日志也是一个很大的概念，任何程序都有可能输出日志：操作系统内核、各种应用服务器等等。日志的阅读全文

posted @ 2018-10-31 13:57 liuge36 阅读(5431) 评论(0) 推荐(0)

Hive安装与简单使用并集成SparkSQL

摘要：## Hive环境搭建1. hive下载：http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive 阅读全文

posted @ 2018-10-31 10:50 liuge36 阅读(357) 评论(0) 推荐(0)

留歌__36的博客

我是留歌，这里是留歌36。很高兴被你发现！留歌是一个爱折腾的程序员。如果你也喜欢我的文章，欢迎订阅和关注。谢谢大家～我的个人网站： how2s.cn

随笔分类 - 大数据学习

公告

留歌__36的博客

我是留歌，这里是留歌36。很高兴被你发现！留歌是一个爱折腾的程序员。如果你也喜欢我的文章，欢迎订阅和关注。谢谢大家～ 我的个人网站： how2s.cn

随笔分类 - 大数据学习

公告

我是留歌，这里是留歌36。很高兴被你发现！留歌是一个爱折腾的程序员。如果你也喜欢我的文章，欢迎订阅和关注。谢谢大家～我的个人网站： how2s.cn