随笔分类 -  BigData

1 2 3 下一页
Spark 数据源
摘要:一、mysql作为数据源 mysql数据: 二、Spark写出数据格式 三、Json作为数据源 四、Csv作为数据源 阅读全文
posted @ 2019-01-20 23:32 阅读(691) 评论(0) 推荐(0)
Spark SQL
摘要:一、SparkSQL介绍 二、DataFrame介绍 三、SQL风格 1、SqlTest1 2、user.txt 3、结果 四、toDF使用 五、DSL风格 结果: 六、WordCount 1、SqlWordCount 2、words.txt 3、结果 七、Join操作 1、JoinDemo 2、结 阅读全文
posted @ 2019-01-20 23:03 阅读(416) 评论(0) 推荐(0)
Spark-自定义排序
摘要:一、自定义排序规则-封装类 结果: 二、 二、自定义排序规则-模式匹配 结果: 三、 三、自定义排序规则-隐式转换 结果: 阅读全文
posted @ 2019-01-19 23:54 阅读(1251) 评论(0) 推荐(0)
Spark-Cache与Checkpoint
摘要:一、Cache缓存操作 二、Checpoint机制 阅读全文
posted @ 2019-01-19 23:42 阅读(398) 评论(0) 推荐(0)
Spark与mysql整合
摘要:一、需求:把最终结果存储在mysql中 1、UrlGroupCount1类 2、mysql创建数据库和表 3、结果 二、Spark提供的连接mysql的方式--jdbcRDD 1、JdbcRDDDemo类 2、结果 阅读全文
posted @ 2019-01-16 00:10 阅读(2075) 评论(0) 推荐(0)
Spark案例分析
摘要:一、需求:计算网页访问量前三名 结果: 二、需求:求出每个学院 访问第一位的网址 结果: 三、需求:加入自定义分区,按照学院分区,相同的学院分为一个结果文件 结果: 1、part-00000 2、part-00001 3、part-00002 四、pom.xml文件 五、数据access.log 2 阅读全文
posted @ 2019-01-15 21:35 阅读(336) 评论(0) 推荐(0)
Spark-RDD算子
摘要:一、Spark-RDD算子简介 二、RDD创建 例子: 三、常用Transformation 1、map(func) 2、flatMap(func) 3、sortby 4、reduceByKey 5、filter 过滤 6、union 并集 7、groupByKey 分组 8、intersectio 阅读全文
posted @ 2019-01-13 20:02 阅读(308) 评论(0) 推荐(0)
Spark集群安装和WordCount编写
摘要:一、Spark概述 二、Spark特点 三、Spark安装部署 四、启动spark­shell 五、spark集群角色 六、Shell编写WordCount 1、本地模式:bin/spark-shell 其中words.txt文件内容如下 2、集群启动:bin/spark-shell --maste 阅读全文
posted @ 2019-01-10 22:42 阅读(593) 评论(0) 推荐(0)
Scala高级语法
摘要:一、隐式 (一)隐式参数 1、ImplicitTest 结果: 2、ImplicitTest1 结果: 3、KelihuaImplicit 结果: (二)隐式转换类型 4、FileMain 5、RichFile 结果: (三)隐式类 6、ReadImplicit 结果: 二、泛型 1、Anythin 阅读全文
posted @ 2019-01-06 19:21 阅读(897) 评论(0) 推荐(0)
Scala并发编程模型AKKA
摘要:一、并发编程模型AKKA 1、Actor模型 2、Actor工作机制 二、AKKA编程 1、需求 我发消息,自己收 结果: 2.需求 一个Actor发送消息,另外一个Actor接收消息 (1)TomActor (2)JohnActor (3)QqDriver (4)结果 3、maven依赖pom文件 阅读全文
posted @ 2019-01-06 16:58 阅读(1074) 评论(0) 推荐(0)
Scala面向对象和模式匹配
摘要:我们要封装数据,定义模板等操作,所以我们需要面向对象。 一、scala中的单例对象 1、ScalaTest 2、ScalaMain 结果: 二、scala类与构造器的使用 1、Person1 2、Person2 结果: 3、Person3 结果: 三、构造器的访问权限 1、Person4 2、Sca 阅读全文
posted @ 2019-01-06 13:05 阅读(472) 评论(0) 推荐(0)
Scala数组和集合
摘要:一、scala数组 二、数组方法 1、map(映射) 例: 2、flatten(扁平化操作) 3、flatMap(相当于先map操作再flatten) 4、foreach(遍历数组中的元素) 5、GroupBy(分组) 6、sortBy(排序) 三、集合 例: 四、长度可变的数组 五、Seq序列 例 阅读全文
posted @ 2019-01-03 23:16 阅读(6547) 评论(0) 推荐(0)
Scala函数
摘要:一、方法 二、函数 1、函数使用例子: 三、传值调用&传名调用 1、传值调用 输出结果 2、传名调用 输出结果 四、可变参数函数 1、java中的可变参数 2、scala中的可变参数 输出结果 五、默认参数值函数 1、例子 输出结果 六、高阶函数 1、例子 七、部分参数应用函数 1、例子 输出结果 阅读全文
posted @ 2018-12-31 20:38 阅读(868) 评论(0) 推荐(0)
Scala简介及基础语法
摘要:循环的一些例子: 阅读全文
posted @ 2018-12-31 16:43 阅读(791) 评论(0) 推荐(0)
Flink简介及使用
摘要:九、flink结构 十、WordCount简单实现 需求:实时的wordcount 往端口中发送数据,实时的计算数据 1、SocketWordCount类 2、flink的maven依赖 3、运行SocketWordCount类的main方法 4、服务器安装netcat 5、此时在服务器的nc下输入 阅读全文
posted @ 2018-12-31 16:30 阅读(12064) 评论(1) 推荐(1)
网站访问量实时统计
摘要:一、需求:统计网站访问量(实时统计) 1、PvCountSpout类 2、PvCountSplitBolt类 3、PvCountSumBolt类 4、PvCountDriver类 5、PvCountDriver_Shuffle类 6、weblog.log文件 7、运行(4)中的main方法,控制台显 阅读全文
posted @ 2018-12-28 00:09 阅读(3591) 评论(0) 推荐(0)
Storm-wordcount实时统计单词次数
摘要:一、本地模式 1、WordCountSpout类 2、WordCountSplitBolt类 3、WordCountBolt类 4、WordCountDriver类 5、直接运行(4)里面的main方法即可启动本地模式。 二、集群模式 前三个类和上面本地模式一样,第4个类WordCountDrive 阅读全文
posted @ 2018-12-27 23:34 阅读(801) 评论(0) 推荐(0)
Storm编程模型及组件流程图
摘要:一、Storm编程模型 二、Storm组件流程图 阅读全文
posted @ 2018-12-27 22:55 阅读(397) 评论(0) 推荐(0)
Storm简介及使用
摘要:一、Storm概述 网址:http://storm.apache.org/ Apache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣! Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。风暴很快... 阅读全文
posted @ 2018-12-27 22:49 阅读(1554) 评论(0) 推荐(0)
kafka-stream数据清洗
摘要:1、数据清洗业务类LogProcessor 2、Application类 3、运行Application类的main方法 4、在hd09-1机器上创建主题t1 5、在hd09-2机器上启动消费者 6、在hd09-1机器上启动生产者 7、此时在hd09-1机器kafka生产者上输入 wo-henshu 阅读全文
posted @ 2018-12-18 20:29 阅读(2059) 评论(0) 推荐(0)

1 2 3 下一页