02 2017 档案

sparkstreaming+kafka
摘要:生产者 消费者 阅读全文

posted @ 2017-02-14 17:47 sunyaxue 阅读(266) 评论(0) 推荐(0)

zookeeper错误Error contacting service. It is probably not running.
摘要:./zkServer.sh start启动成功,并且使用jps能看zookeeper的进程。 ./zkServer.sh status缺报错,Error contacting service. It is probably not running. 好多地方说和防火墙有关系 我的解决办法是先看一下2 阅读全文

posted @ 2017-02-10 16:33 sunyaxue 阅读(6516) 评论(0) 推荐(0)

eclipse开发hive2程序
摘要:条件:安装好eclipse和hive 创建项目引入jar包 遇到的问题: SunandLi is not allowed to impersonate anonymous 修改core-site.xml中文件内容,在原文件内容中添加: <property> <name>hadoop.proxyuse 阅读全文

posted @ 2017-02-09 16:05 sunyaxue 阅读(689) 评论(0) 推荐(0)

eclipse开发hbase程序
摘要:首先安装好hbase 创建一个java project引入hbase中lib的jar包 然后创建一个class 阅读全文

posted @ 2017-02-09 11:50 sunyaxue 阅读(396) 评论(0) 推荐(0)

hbase 安装和使用
摘要:下载hbase 配置conf中hbase-env.sh 配置conf中的hbase-site.xml 启动hbase 检查是否启动 进入hbase shell 创建表t1 查看有哪些表 插入数据没有指定column 插入数据指定column 插入多列数据 启动错误 将logs里面的文件删除和hdfs 阅读全文

posted @ 2017-02-08 18:12 sunyaxue 阅读(307) 评论(0) 推荐(0)

kafka本地单机模式配置
摘要:下载kafka:http://kafka.apache.org/downloads 配置config/server.properties 启动kafka 新建一个topic 阅读全文

posted @ 2017-02-07 17:25 sunyaxue 阅读(610) 评论(0) 推荐(0)

zookeeper 单机模式安装(mac)
摘要:下载zookeeper:http://apache.fayea.com/zookeeper 解压拷贝到当前用户目录下面 在conf目录下面vim zoo.cfg 阅读全文

posted @ 2017-02-07 17:14 sunyaxue 阅读(822) 评论(0) 推荐(0)

SparkSQL小例子
摘要:详情请看:http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/ 阅读全文

posted @ 2017-02-07 11:45 sunyaxue 阅读(505) 评论(0) 推荐(0)

spark小例子
摘要:var countData1 = src.map(line => (line.toLowerCase(),1)).reduceByKey(_+_).collect().foreach(println _) 阅读全文

posted @ 2017-02-05 21:05 sunyaxue 阅读(259) 评论(0) 推荐(0)

spark 分析作者发布文章的总阅读量
摘要:import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.catalyst.expressions.Second import javafx.scene.shape.Line import org.apache.spark.SparkConf impor... 阅读全文

posted @ 2017-02-05 15:41 sunyaxue 阅读(266) 评论(0) 推荐(0)

spark和hadoop差异
摘要:spark是从mapreduce发展过来的,拥有分布式并行计算的能力 运行效率高: spark是把中间数据放到内存中,并且spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 而mapreduce的计算结果是保存在磁盘上的,这势必会影响整体速度。 容错性高: 阅读全文

posted @ 2017-02-05 11:09 sunyaxue 阅读(292) 评论(0) 推荐(0)

spark
摘要:/* * spark算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 * spark算子的作用: * 1.输入:在spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入scala集合或数据)输入spark, * 数据进入spark运行时数据空间,转化为s... 阅读全文

posted @ 2017-02-04 17:11 sunyaxue 阅读(178) 评论(0) 推荐(0)

scala JobConf实现
摘要:package first_mapreduce_scala import org.apache.hadoop.mapreduce.Job import java.util._ import org.apache.hadoop.fs.Path import org.apache.hadoop.conf._ import org.apache.hadoop.io._ import org.ap... 阅读全文

posted @ 2017-02-04 15:03 sunyaxue 阅读(394) 评论(0) 推荐(0)

mapreduce用scala分析百度百家上作者发布的文章数量和总阅读量
摘要:import org.apache.hadoop.conf.{Configuration, Configured}; import org.apache.hadoop.util.{ToolRunner, Tool}; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.lib.output.FileOut... 阅读全文

posted @ 2017-02-04 11:52 sunyaxue 阅读(304) 评论(0) 推荐(0)

mapreduce从数据库中分析数据,并把分析结果写入数据库中
摘要:创建类 创建类 阅读全文

posted @ 2017-02-03 15:56 sunyaxue 阅读(2074) 评论(0) 推荐(0)

mapreduce分析百度百家作者分布的文章数和总阅读量
摘要:主要完成的任务是从一个文件中读取数据后,去重,然后分析出作者发布的文章数量和总的阅读量之后,把分析结果保存在另一个文件中 首先创建一个flowbean 然后创建map和reduce 阅读全文

posted @ 2017-02-03 15:05 sunyaxue 阅读(306) 评论(0) 推荐(0)

hive基本操作,分析百度百家作者分布的文章数和总阅读量
摘要:hive> show tables; 查看hive中的表 hive> show databases;查看数据库 hive> drop table textlines; 删除表 hive> create table textlines(line string);创建一个名字叫textlines的表,表 阅读全文

posted @ 2017-02-03 14:13 sunyaxue 阅读(246) 评论(0) 推荐(0)

导航