会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
appointint
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2018年3月19日
ubuntu16.04下安装Wineqq+Firefox flash安装+搜狗输入法+截图软件ksnatshot
摘要: 一. 安装qq 1.安装wine,使用三条命令 如果报错出现依赖错误,使用命令sudo apt-get install -f 修复依赖 sudo add-apt-repository ppa:wine/wine-builds sudo apt-get updatesudo apt-...
阅读全文
posted @ 2018-03-19 00:00 appointint
阅读(252)
评论(0)
推荐(0)
2018年3月16日
hadoop2.7ubuntu伪分布式搭建
摘要: 一.安装Java 下载java的压缩包,解压 sudo tar -zxvf 8.tar.gz 配置java环境变量 sudo vim ~/.bashrc export JAVA_HOME=/usr/local/java-8-openjdk-amd64export JRE_HOME=/...
阅读全文
posted @ 2018-03-16 00:00 appointint
阅读(204)
评论(0)
推荐(0)
2018年1月2日
combineByKey&groupByKey&sortedByKey
摘要: 分组操作 在分布式程序中,通信的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样,Spark 程序可以通过控制RDD 分区方式来减少通信开销。 分区并不是对所有应用都有好处的——比如,如果给定RDD 只需要被...
阅读全文
posted @ 2018-01-02 00:00 appointint
阅读(184)
评论(0)
推荐(0)
intersection &union&zip
摘要: && 对于键值对类型的RDD,如果键是自定义类型(比如:Person),则需要重写其hashCode 和equals方法。 1、 intersection 底层用的是groupByKey;subtract底层用的是subtractByKey; import java.net.Malf...
阅读全文
posted @ 2018-01-02 00:00 appointint
阅读(148)
评论(0)
推荐(0)
persist&checkpoint&countApi
摘要: 1、 persisit机制 import java.util.Iterator;import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.s...
阅读全文
posted @ 2018-01-02 00:00 appointint
阅读(133)
评论(0)
推荐(0)
广播变量&累加变量
摘要: 1、 广播&累加器 我们传递给Spark的函数,如map(),或者filter()的判断条件函数,能够利用定义在函数之外的变量,但是集群中的每一个task都会得到变量的一个副本,并且task在对变量进行的更新不会被返回给driver。而Spark的两种共享变量:累加器(accumul...
阅读全文
posted @ 2018-01-02 00:00 appointint
阅读(553)
评论(0)
推荐(0)
java函数式编程基础
摘要: 函数式编程第一步 (一)接口实现 一、 Lambda表达式 Lambda是一个匿名函数,可以把Lambda表达式理解为是一段可以传递的代码(将代码像数据一样进行传递)。可以写出更简洁、更灵活的代码。作为一种更紧凑的代码风格,使Java的语言表达能力得到了提升。 二、La...
阅读全文
posted @ 2018-01-02 00:00 appointint
阅读(167)
评论(0)
推荐(0)
java8内置四大函数&方法引用与构造器引用
摘要: java8内置四大函数 为了免去用户每次使用Lambda表达式时,都自行创建函数式接口,Java提供了4大核心内置函数式接口 * Consumer :消费型接口 * void accept(T t); * *Supplier :供给型接口 * ...
阅读全文
posted @ 2018-01-02 00:00 appointint
阅读(954)
评论(0)
推荐(1)
spark stream
摘要: 流的特点 1. 只能遍历一次 我们可以把流想象成一条流水线,流水线的源头是我们的数据源(一个集合),数据源中的元素依次被输送到流水线上,我们可以在流水线上对元素进行各种操作。一旦元素走到了流水线的另一头,那么这些元素就被“消费掉了”,我们无法再对这个流进行操作。当然,我们可以...
阅读全文
posted @ 2018-01-02 00:00 appointint
阅读(314)
评论(0)
推荐(0)
streaming操作滑动窗口
摘要: 开两个命令行窗口: 服务端:nc –lp 8888 //客户端:nc localhost 8888 在默认情况下,Spark应用程序的日志级别是INFO的,我们可以自定义Spark应用程序的日志输出级别,可以到$SPARK_HOME/conf/log4j.properties文件...
阅读全文
posted @ 2018-01-02 00:00 appointint
阅读(198)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告