BigData - 随笔分类 - 末

摘要：一、mysql作为数据源 mysql数据：二、Spark写出数据格式三、Json作为数据源四、Csv作为数据源阅读全文

posted @ 2019-01-20 23:32 末阅读(691) 评论(0) 推荐(0)

摘要：一、SparkSQL介绍二、DataFrame介绍三、SQL风格 1、SqlTest1 2、user.txt 3、结果四、toDF使用五、DSL风格结果：六、WordCount 1、SqlWordCount 2、words.txt 3、结果七、Join操作 1、JoinDemo 2、结阅读全文

posted @ 2019-01-20 23:03 末阅读(416) 评论(0) 推荐(0)

Spark-自定义排序

摘要：一、自定义排序规则-封装类结果：二、二、自定义排序规则-模式匹配结果：三、三、自定义排序规则-隐式转换结果：阅读全文

posted @ 2019-01-19 23:54 末阅读(1251) 评论(0) 推荐(0)

Spark-Cache与Checkpoint

摘要：一、Cache缓存操作二、Checpoint机制阅读全文

posted @ 2019-01-19 23:42 末阅读(398) 评论(0) 推荐(0)

Spark与mysql整合

摘要：一、需求：把最终结果存储在mysql中 1、UrlGroupCount1类 2、mysql创建数据库和表 3、结果二、Spark提供的连接mysql的方式--jdbcRDD 1、JdbcRDDDemo类 2、结果阅读全文

posted @ 2019-01-16 00:10 末阅读(2075) 评论(0) 推荐(0)

Spark案例分析

摘要：一、需求：计算网页访问量前三名结果：二、需求：求出每个学院访问第一位的网址结果：三、需求：加入自定义分区，按照学院分区，相同的学院分为一个结果文件结果： 1、part-00000 2、part-00001 3、part-00002 四、pom.xml文件五、数据access.log 2 阅读全文

posted @ 2019-01-15 21:35 末阅读(336) 评论(0) 推荐(0)

Spark-RDD算子

摘要：一、Spark-RDD算子简介二、RDD创建例子：三、常用Transformation 1、map(func) 2、flatMap(func) 3、sortby 4、reduceByKey 5、filter 过滤 6、union 并集 7、groupByKey 分组 8、intersectio 阅读全文

posted @ 2019-01-13 20:02 末阅读(308) 评论(0) 推荐(0)

Spark集群安装和WordCount编写

摘要：一、Spark概述二、Spark特点三、Spark安装部署四、启动sparkshell 五、spark集群角色六、Shell编写WordCount 1、本地模式：bin/spark-shell 其中words.txt文件内容如下 2、集群启动：bin/spark-shell --maste 阅读全文

posted @ 2019-01-10 22:42 末阅读(593) 评论(0) 推荐(0)

Scala高级语法

摘要：一、隐式（一）隐式参数 1、ImplicitTest 结果： 2、ImplicitTest1 结果： 3、KelihuaImplicit 结果：（二）隐式转换类型 4、FileMain 5、RichFile 结果：（三）隐式类 6、ReadImplicit 结果：二、泛型 1、Anythin 阅读全文

posted @ 2019-01-06 19:21 末阅读(897) 评论(0) 推荐(0)

Scala并发编程模型AKKA

摘要：一、并发编程模型AKKA 1、Actor模型 2、Actor工作机制二、AKKA编程 1、需求我发消息，自己收结果： 2.需求一个Actor发送消息，另外一个Actor接收消息 (1)TomActor (2)JohnActor (3)QqDriver (4)结果 3、maven依赖pom文件阅读全文

posted @ 2019-01-06 16:58 末阅读(1074) 评论(0) 推荐(0)

Scala面向对象和模式匹配

摘要：我们要封装数据，定义模板等操作，所以我们需要面向对象。一、scala中的单例对象 1、ScalaTest 2、ScalaMain 结果：二、scala类与构造器的使用 1、Person1 2、Person2 结果： 3、Person3 结果：三、构造器的访问权限 1、Person4 2、Sca 阅读全文

posted @ 2019-01-06 13:05 末阅读(472) 评论(0) 推荐(0)

Scala数组和集合

摘要：一、scala数组二、数组方法 1、map（映射）例： 2、flatten（扁平化操作） 3、flatMap（相当于先map操作再flatten） 4、foreach（遍历数组中的元素） 5、GroupBy（分组） 6、sortBy（排序）三、集合例：四、长度可变的数组五、Seq序列例阅读全文

posted @ 2019-01-03 23:16 末阅读(6547) 评论(0) 推荐(0)

Scala函数

摘要：一、方法二、函数 1、函数使用例子：三、传值调用&传名调用 1、传值调用输出结果 2、传名调用输出结果四、可变参数函数 1、java中的可变参数 2、scala中的可变参数输出结果五、默认参数值函数 1、例子输出结果六、高阶函数 1、例子七、部分参数应用函数 1、例子输出结果阅读全文

posted @ 2018-12-31 20:38 末阅读(868) 评论(0) 推荐(0)

Scala简介及基础语法

摘要：循环的一些例子：阅读全文

posted @ 2018-12-31 16:43 末阅读(791) 评论(0) 推荐(0)

Flink简介及使用

摘要：九、flink结构十、WordCount简单实现需求：实时的wordcount 往端口中发送数据，实时的计算数据 1、SocketWordCount类 2、flink的maven依赖 3、运行SocketWordCount类的main方法 4、服务器安装netcat 5、此时在服务器的nc下输入阅读全文

posted @ 2018-12-31 16:30 末阅读(12064) 评论(1) 推荐(1)

网站访问量实时统计

摘要：一、需求：统计网站访问量（实时统计） 1、PvCountSpout类 2、PvCountSplitBolt类 3、PvCountSumBolt类 4、PvCountDriver类 5、PvCountDriver_Shuffle类 6、weblog.log文件 7、运行（4）中的main方法，控制台显阅读全文

posted @ 2018-12-28 00:09 末阅读(3591) 评论(0) 推荐(0)

Storm-wordcount实时统计单词次数

摘要：一、本地模式 1、WordCountSpout类 2、WordCountSplitBolt类 3、WordCountBolt类 4、WordCountDriver类 5、直接运行（4）里面的main方法即可启动本地模式。二、集群模式前三个类和上面本地模式一样，第4个类WordCountDrive 阅读全文

posted @ 2018-12-27 23:34 末阅读(801) 评论(0) 推荐(0)

Storm编程模型及组件流程图

摘要：一、Storm编程模型二、Storm组件流程图阅读全文

posted @ 2018-12-27 22:55 末阅读(397) 评论(0) 推荐(0)

Storm简介及使用

摘要：一、Storm概述网址：http://storm.apache.org/ Apache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流，实现Hadoop对批处理所做的实时处理。Storm非常简单，可以与任何编程语言一起使用，并且使用起来很有趣！ Storm有许多用例：实时分析，在线机器学习，连续计算，分布式RPC，ETL等。风暴很快... 阅读全文

posted @ 2018-12-27 22:49 末阅读(1554) 评论(0) 推荐(0)

kafka-stream数据清洗

摘要：1、数据清洗业务类LogProcessor 2、Application类 3、运行Application类的main方法 4、在hd09-1机器上创建主题t1 5、在hd09-2机器上启动消费者 6、在hd09-1机器上启动生产者 7、此时在hd09-1机器kafka生产者上输入 wo-henshu 阅读全文

posted @ 2018-12-18 20:29 末阅读(2058) 评论(0) 推荐(0)

随笔分类 - BigData