csguo - 博客园

2017年11月7日

摘要： Spark程序本地运行本次安装是在JDK安装完成的基础上进行的！ SPARK版本和hadoop版本必须对应！！！ spark是基于hadoop运算的，两者有依赖关系，见下图：前言： 1.环境变量配置： 1.1 打开“控制面板”选项 1.2.找到“系统”选项卡 1.3.点击“高级系统设置” 1.4 阅读全文

posted @ 2017-11-07 18:31 csguo 阅读(6220) 评论(0) 推荐(0)

IntelliJ IDEA 教程

摘要：写这篇文章的初衷很简单，就是想再一次证明 IntelliJ IDEA 对于 Java 开发人员来说，确实比 eclipse 要好用得多，鉴于目前市面上关于 IntelliJ IDEA 的教程比较少，叙述清楚的也不多，所以希望我的整理工作能够帮助各位从 eclipse 中尽快摆脱出来。我用过 ecl 阅读全文

posted @ 2017-11-07 16:55 csguo 阅读(1547) 评论(0) 推荐(0)

2017年10月30日

Spark Shell简单使用

摘要：基础 Spark的shell作为一个强大的交互式数据分析工具，提供了一个简单的方式学习API。它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python。在Spark目录里使用下面的方式开始运行： [plain] view plain copy ./bin/spark 阅读全文

posted @ 2017-10-30 10:53 csguo 阅读(31214) 评论(0) 推荐(1)

2017年10月29日

scala基本语法和单词统计

摘要： scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的，相当于java里final修饰的变量，推荐使用。(2)var i = "hello" 使用var声明的变量值是可变的(3)val s = "hi" scala编译器会自动推断变量的类型，必要的时候可以指定阅读全文

posted @ 2017-10-29 14:26 csguo 阅读(681) 评论(0) 推荐(0)

Spark简介安装和简单例子

摘要： Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎，目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。简单来说Spark是内存迭代计阅读全文

posted @ 2017-10-29 14:19 csguo 阅读(721) 评论(0) 推荐(0)

SparkSQL简介

摘要： 1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量阅读全文

posted @ 2017-10-29 12:07 csguo 阅读(1972) 评论(0) 推荐(0)

2017年10月25日

hadoop三个配置文件的参数含义说明

摘要： 1 获取默认配置配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有阅读全文

posted @ 2017-10-25 10:37 csguo 阅读(744) 评论(0) 推荐(0)

Hadoop配置文件参数详解

摘要： Hadoop运行模式分为安全模式和非安全模式，在这里，我将讲述非安全模式下，主要配置文件的重要参数功能及作用，本文所使用的Hadoop版本为2.6.4。 etc/hadoop/core-site.xml 参数属性值解释 fs.defaultFS NameNode URI hdfs://host: 阅读全文

posted @ 2017-10-25 09:30 csguo 阅读(958) 评论(0) 推荐(1)

2017年10月13日

Flume

摘要：在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。阅读全文

posted @ 2017-10-13 14:51 csguo 阅读(329) 评论(0) 推荐(0)

Oozie

摘要： Oozie是一个基于工作流引擎的服务器，可以在上面运行Hadoop的Map Reduce和Pig任务。它其实就是一个运行在Java Servlet容器（比如Tomcat）中的Javas Web应用。对于Oozie来说，工作流就是一系列的操作（比如Hadoop的MR，以及Pig的任务），这些操作通过阅读全文

posted @ 2017-10-13 13:52 csguo 阅读(641) 评论(0) 推荐(0)