Spark 数据源
摘要:一、mysql作为数据源 mysql数据: 二、Spark写出数据格式 三、Json作为数据源 四、Csv作为数据源
阅读全文
posted @
2019-01-20 23:32
末
阅读(691)
推荐(0)
Spark SQL
摘要:一、SparkSQL介绍 二、DataFrame介绍 三、SQL风格 1、SqlTest1 2、user.txt 3、结果 四、toDF使用 五、DSL风格 结果: 六、WordCount 1、SqlWordCount 2、words.txt 3、结果 七、Join操作 1、JoinDemo 2、结
阅读全文
posted @
2019-01-20 23:03
末
阅读(416)
推荐(0)
Spark-自定义排序
摘要:一、自定义排序规则-封装类 结果: 二、 二、自定义排序规则-模式匹配 结果: 三、 三、自定义排序规则-隐式转换 结果:
阅读全文
posted @
2019-01-19 23:54
末
阅读(1251)
推荐(0)
Spark-Cache与Checkpoint
摘要:一、Cache缓存操作 二、Checpoint机制
阅读全文
posted @
2019-01-19 23:42
末
阅读(398)
推荐(0)
Spark与mysql整合
摘要:一、需求:把最终结果存储在mysql中 1、UrlGroupCount1类 2、mysql创建数据库和表 3、结果 二、Spark提供的连接mysql的方式--jdbcRDD 1、JdbcRDDDemo类 2、结果
阅读全文
posted @
2019-01-16 00:10
末
阅读(2075)
推荐(0)
Spark案例分析
摘要:一、需求:计算网页访问量前三名 结果: 二、需求:求出每个学院 访问第一位的网址 结果: 三、需求:加入自定义分区,按照学院分区,相同的学院分为一个结果文件 结果: 1、part-00000 2、part-00001 3、part-00002 四、pom.xml文件 五、数据access.log 2
阅读全文
posted @
2019-01-15 21:35
末
阅读(336)
推荐(0)
Spark-RDD算子
摘要:一、Spark-RDD算子简介 二、RDD创建 例子: 三、常用Transformation 1、map(func) 2、flatMap(func) 3、sortby 4、reduceByKey 5、filter 过滤 6、union 并集 7、groupByKey 分组 8、intersectio
阅读全文
posted @
2019-01-13 20:02
末
阅读(308)
推荐(0)
Spark集群安装和WordCount编写
摘要:一、Spark概述 二、Spark特点 三、Spark安装部署 四、启动sparkshell 五、spark集群角色 六、Shell编写WordCount 1、本地模式:bin/spark-shell 其中words.txt文件内容如下 2、集群启动:bin/spark-shell --maste
阅读全文
posted @
2019-01-10 22:42
末
阅读(593)
推荐(0)
Scala高级语法
摘要:一、隐式 (一)隐式参数 1、ImplicitTest 结果: 2、ImplicitTest1 结果: 3、KelihuaImplicit 结果: (二)隐式转换类型 4、FileMain 5、RichFile 结果: (三)隐式类 6、ReadImplicit 结果: 二、泛型 1、Anythin
阅读全文
posted @
2019-01-06 19:21
末
阅读(897)
推荐(0)
Scala并发编程模型AKKA
摘要:一、并发编程模型AKKA 1、Actor模型 2、Actor工作机制 二、AKKA编程 1、需求 我发消息,自己收 结果: 2.需求 一个Actor发送消息,另外一个Actor接收消息 (1)TomActor (2)JohnActor (3)QqDriver (4)结果 3、maven依赖pom文件
阅读全文
posted @
2019-01-06 16:58
末
阅读(1074)
推荐(0)
Scala面向对象和模式匹配
摘要:我们要封装数据,定义模板等操作,所以我们需要面向对象。 一、scala中的单例对象 1、ScalaTest 2、ScalaMain 结果: 二、scala类与构造器的使用 1、Person1 2、Person2 结果: 3、Person3 结果: 三、构造器的访问权限 1、Person4 2、Sca
阅读全文
posted @
2019-01-06 13:05
末
阅读(472)
推荐(0)
Scala数组和集合
摘要:一、scala数组 二、数组方法 1、map(映射) 例: 2、flatten(扁平化操作) 3、flatMap(相当于先map操作再flatten) 4、foreach(遍历数组中的元素) 5、GroupBy(分组) 6、sortBy(排序) 三、集合 例: 四、长度可变的数组 五、Seq序列 例
阅读全文
posted @
2019-01-03 23:16
末
阅读(6547)
推荐(0)
Scala函数
摘要:一、方法 二、函数 1、函数使用例子: 三、传值调用&传名调用 1、传值调用 输出结果 2、传名调用 输出结果 四、可变参数函数 1、java中的可变参数 2、scala中的可变参数 输出结果 五、默认参数值函数 1、例子 输出结果 六、高阶函数 1、例子 七、部分参数应用函数 1、例子 输出结果
阅读全文
posted @
2018-12-31 20:38
末
阅读(868)
推荐(0)
Flink简介及使用
摘要:九、flink结构 十、WordCount简单实现 需求:实时的wordcount 往端口中发送数据,实时的计算数据 1、SocketWordCount类 2、flink的maven依赖 3、运行SocketWordCount类的main方法 4、服务器安装netcat 5、此时在服务器的nc下输入
阅读全文
posted @
2018-12-31 16:30
末
阅读(12064)
推荐(1)
网站访问量实时统计
摘要:一、需求:统计网站访问量(实时统计) 1、PvCountSpout类 2、PvCountSplitBolt类 3、PvCountSumBolt类 4、PvCountDriver类 5、PvCountDriver_Shuffle类 6、weblog.log文件 7、运行(4)中的main方法,控制台显
阅读全文
posted @
2018-12-28 00:09
末
阅读(3591)
推荐(0)
Storm-wordcount实时统计单词次数
摘要:一、本地模式 1、WordCountSpout类 2、WordCountSplitBolt类 3、WordCountBolt类 4、WordCountDriver类 5、直接运行(4)里面的main方法即可启动本地模式。 二、集群模式 前三个类和上面本地模式一样,第4个类WordCountDrive
阅读全文
posted @
2018-12-27 23:34
末
阅读(801)
推荐(0)
Storm编程模型及组件流程图
摘要:一、Storm编程模型 二、Storm组件流程图
阅读全文
posted @
2018-12-27 22:55
末
阅读(397)
推荐(0)
Storm简介及使用
摘要:一、Storm概述 网址:http://storm.apache.org/ Apache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣! Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。风暴很快...
阅读全文
posted @
2018-12-27 22:49
末
阅读(1554)
推荐(0)
kafka-stream数据清洗
摘要:1、数据清洗业务类LogProcessor 2、Application类 3、运行Application类的main方法 4、在hd09-1机器上创建主题t1 5、在hd09-2机器上启动消费者 6、在hd09-1机器上启动生产者 7、此时在hd09-1机器kafka生产者上输入 wo-henshu
阅读全文
posted @
2018-12-18 20:29
末
阅读(2058)
推荐(0)