2017 年 2月随笔档案 - sunyaxue

sparkstreaming+kafka

摘要：生产者消费者阅读全文

posted @ 2017-02-14 17:47 sunyaxue 阅读(266) 评论(0) 推荐(0)

zookeeper错误Error contacting service. It is probably not running.

摘要：./zkServer.sh start启动成功，并且使用jps能看zookeeper的进程。 ./zkServer.sh status缺报错，Error contacting service. It is probably not running. 好多地方说和防火墙有关系我的解决办法是先看一下2 阅读全文

posted @ 2017-02-10 16:33 sunyaxue 阅读(6516) 评论(0) 推荐(0)

eclipse开发hive2程序

摘要：条件：安装好eclipse和hive 创建项目引入jar包遇到的问题： SunandLi is not allowed to impersonate anonymous 修改core-site.xml中文件内容，在原文件内容中添加： <property> <name>hadoop.proxyuse 阅读全文

posted @ 2017-02-09 16:05 sunyaxue 阅读(689) 评论(0) 推荐(0)

eclipse开发hbase程序

摘要：首先安装好hbase 创建一个java project引入hbase中lib的jar包然后创建一个class 阅读全文

posted @ 2017-02-09 11:50 sunyaxue 阅读(396) 评论(0) 推荐(0)

hbase 安装和使用

摘要：下载hbase 配置conf中hbase-env.sh 配置conf中的hbase-site.xml 启动hbase 检查是否启动进入hbase shell 创建表t1 查看有哪些表插入数据没有指定column 插入数据指定column 插入多列数据启动错误将logs里面的文件删除和hdfs 阅读全文

posted @ 2017-02-08 18:12 sunyaxue 阅读(307) 评论(0) 推荐(0)

kafka本地单机模式配置

摘要：下载kafka：http://kafka.apache.org/downloads 配置config/server.properties 启动kafka 新建一个topic 阅读全文

posted @ 2017-02-07 17:25 sunyaxue 阅读(610) 评论(0) 推荐(0)

zookeeper 单机模式安装（mac）

摘要：下载zookeeper：http://apache.fayea.com/zookeeper 解压拷贝到当前用户目录下面在conf目录下面vim zoo.cfg 阅读全文

posted @ 2017-02-07 17:14 sunyaxue 阅读(822) 评论(0) 推荐(0)

SparkSQL小例子

摘要：详情请看：http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/ 阅读全文

posted @ 2017-02-07 11:45 sunyaxue 阅读(505) 评论(0) 推荐(0)

spark小例子

摘要：var countData1 = src.map(line => (line.toLowerCase(),1)).reduceByKey(_+_).collect().foreach(println _) 阅读全文

posted @ 2017-02-05 21:05 sunyaxue 阅读(259) 评论(0) 推荐(0)

摘要：import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.catalyst.expressions.Second import javafx.scene.shape.Line import org.apache.spark.SparkConf impor... 阅读全文

posted @ 2017-02-05 15:41 sunyaxue 阅读(266) 评论(0) 推荐(0)

spark和hadoop差异

摘要：spark是从mapreduce发展过来的，拥有分布式并行计算的能力运行效率高： spark是把中间数据放到内存中，并且spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。而mapreduce的计算结果是保存在磁盘上的，这势必会影响整体速度。容错性高：阅读全文

posted @ 2017-02-05 11:09 sunyaxue 阅读(292) 评论(0) 推荐(0)

spark

摘要：/* * spark算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。 * spark算子的作用： * 1.输入：在spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入scala集合或数据）输入spark， * 数据进入spark运行时数据空间，转化为s... 阅读全文

posted @ 2017-02-04 17:11 sunyaxue 阅读(178) 评论(0) 推荐(0)

scala JobConf实现

摘要：package first_mapreduce_scala import org.apache.hadoop.mapreduce.Job import java.util._ import org.apache.hadoop.fs.Path import org.apache.hadoop.conf._ import org.apache.hadoop.io._ import org.ap... 阅读全文

posted @ 2017-02-04 15:03 sunyaxue 阅读(394) 评论(0) 推荐(0)

mapreduce用scala分析百度百家上作者发布的文章数量和总阅读量

摘要：import org.apache.hadoop.conf.{Configuration, Configured}; import org.apache.hadoop.util.{ToolRunner, Tool}; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.lib.output.FileOut... 阅读全文

posted @ 2017-02-04 11:52 sunyaxue 阅读(304) 评论(0) 推荐(0)

mapreduce从数据库中分析数据，并把分析结果写入数据库中

摘要：创建类创建类阅读全文

posted @ 2017-02-03 15:56 sunyaxue 阅读(2074) 评论(0) 推荐(0)

mapreduce分析百度百家作者分布的文章数和总阅读量

摘要：主要完成的任务是从一个文件中读取数据后，去重，然后分析出作者发布的文章数量和总的阅读量之后，把分析结果保存在另一个文件中首先创建一个flowbean 然后创建map和reduce 阅读全文

posted @ 2017-02-03 15:05 sunyaxue 阅读(306) 评论(0) 推荐(0)

hive基本操作，分析百度百家作者分布的文章数和总阅读量

摘要：hive> show tables; 查看hive中的表 hive> show databases;查看数据库 hive> drop table textlines; 删除表 hive> create table textlines(line string)；创建一个名字叫textlines的表，表阅读全文

posted @ 2017-02-03 14:13 sunyaxue 阅读(246) 评论(0) 推荐(0)

伊米伊念

02 2017 档案