牵牛花

2017年8月17日

Spark运行模式概述

摘要： Spark运行模式概述阅读全文

posted @ 2017-08-17 17:24 牵牛花阅读(178) 评论(0) 推荐(0)

Spark下的PageRank实现

摘要： Spark下的PageRank实现阅读全文

posted @ 2017-08-17 17:20 牵牛花阅读(418) 评论(0) 推荐(0)

造数据时踏过的坑

摘要： 1.在产生随机数时,在数据规模很大的时候很难出现自己要的模型,比如某个条件的数据量,此时要写一个方法,来造一批这样的数据 2.将控制数量,文件路径写成配置文件的形式,以免重复打包 3.输入输出文件夹,可以配置以免重复打包阅读全文

posted @ 2017-08-17 01:12 牵牛花阅读(155) 评论(0) 推荐(0)

2017年8月16日

jsonp爬取页面

摘要： jsonp http://blog.csdn.net/column/details/jsoup.html 阅读全文

posted @ 2017-08-16 23:30 牵牛花阅读(1155) 评论(0) 推荐(0)

Hadoop 回收站

摘要：一、回收站简介：在HDFS里，删除文件时，不会真正的删除，其实是放入回收站/trash，回收站里的文件可以快速恢复。可以设置一个时间阀值，当回收站里文件的存放时间超过这个阀值或是回收站被清空时，文件才会被彻底删除，并且释放占用的数据块。二、实例： Hadoop的回收站trash功能默认是关闭的阅读全文

posted @ 2017-08-16 19:32 牵牛花阅读(278) 评论(0) 推荐(0)

Sparkstreaming reduceByKeyAndWindow(_+_, _-_, Duration, Duration) 的源码/原理解析

摘要： Sparkstreaming reduceByKeyAndWindow(_+_, _-_, Duration, Duration) 的源码/原理解析阅读全文

posted @ 2017-08-16 14:43 牵牛花阅读(846) 评论(0) 推荐(0)

spark streaming updateStateByKey 用法

摘要： spark streaming updateStateByKey 用法阅读全文

posted @ 2017-08-16 10:51 牵牛花阅读(310) 评论(0) 推荐(0)

2017年8月15日

spark streaming 直连 kafka 分区

摘要： spark streaming kafka1.4.1中的低阶api createDirectStream使用总结阅读全文

posted @ 2017-08-15 13:33 牵牛花阅读(627) 评论(0) 推荐(0)

sparkStreaming 练习

摘要： val updateFunc2 = (iter:Iterator[(String,Seq[Int],Option[Int])])=>{ iter.map{case (x,y,z) => //由于Some的get方法得到的还是一个Some.所以这里要在用一个get方法 //,如果最开始的时候用的时flatmap那么这里就不用调用get方法,这里可以推测出Flat... 阅读全文

posted @ 2017-08-15 10:39 牵牛花阅读(287) 评论(0) 推荐(0)

2017年8月14日

json demo

摘要： package my.bigdata.movieTask.action; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import java.util.ArrayList; import java.util.Ha... 阅读全文

posted @ 2017-08-14 22:44 牵牛花阅读(735) 评论(0) 推荐(0)

公告