上一页 1 2 3 4 5 6 7 ··· 16 下一页
  2017年11月7日
摘要: Spark程序本地运行 本次安装是在JDK安装完成的基础上进行的! SPARK版本和hadoop版本必须对应!!! spark是基于hadoop运算的,两者有依赖关系,见下图: 前言: 1.环境变量配置: 1.1 打开“控制面板”选项 1.2.找到“系统”选项卡 1.3.点击“高级系统设置” 1.4 阅读全文
posted @ 2017-11-07 18:31 csguo 阅读(6220) 评论(0) 推荐(0)
摘要: 写这篇文章的初衷很简单,就是想再一次证明 IntelliJ IDEA 对于 Java 开发人员来说,确实比 eclipse 要好用得多,鉴于目前市面上关于 IntelliJ IDEA 的教程比较少,叙述清楚的也不多,所以希望我的整理工作能够帮助各位从 eclipse 中尽快摆脱出来。 我用过 ecl 阅读全文
posted @ 2017-11-07 16:55 csguo 阅读(1547) 评论(0) 推荐(0)
  2017年10月30日
摘要: 基础 Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式学习API。它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python。在Spark目录里使用下面的方式开始运行: [plain] view plain copy ./bin/spark 阅读全文
posted @ 2017-10-30 10:53 csguo 阅读(31214) 评论(0) 推荐(1)
  2017年10月29日
摘要: scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用。(2)var i = "hello" 使用var声明的变量值是可变的(3)val s = "hi" scala编译器会自动推断变量的类型,必要的时候可以指定 阅读全文
posted @ 2017-10-29 14:26 csguo 阅读(681) 评论(0) 推荐(0)
摘要: Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎,目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。简单来说Spark是 内存迭代计 阅读全文
posted @ 2017-10-29 14:19 csguo 阅读(721) 评论(0) 推荐(0)
摘要: 1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量 阅读全文
posted @ 2017-10-29 12:07 csguo 阅读(1972) 评论(0) 推荐(0)
  2017年10月25日
摘要: 1 获取默认配置 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有 阅读全文
posted @ 2017-10-25 10:37 csguo 阅读(744) 评论(0) 推荐(0)
摘要: Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4。 etc/hadoop/core-site.xml 参数 属性值 解释 fs.defaultFS NameNode URI hdfs://host: 阅读全文
posted @ 2017-10-25 09:30 csguo 阅读(958) 评论(0) 推荐(1)
  2017年10月13日
摘要: 在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 阅读全文
posted @ 2017-10-13 14:51 csguo 阅读(329) 评论(0) 推荐(0)
摘要: Oozie是一个基于工作流引擎的服务器,可以在上面运行Hadoop的Map Reduce和Pig任务。它其实就是一个运行在Java Servlet容器(比如Tomcat)中的Javas Web应用。 对于Oozie来说,工作流就是一系列的操作(比如Hadoop的MR,以及Pig的任务),这些操作通过 阅读全文
posted @ 2017-10-13 13:52 csguo 阅读(641) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 16 下一页