Spark - 随笔分类(第3页) - soyosuyang

Spark 机器学习------逻辑回归

摘要：结果： + + +| id| text|+ + +| 4| spark i like|| 5|hadoop spark book|| 6| soyo9 soy 88|+ + +StructField(id,IntegerType,false)StructField(text,StringType,t 阅读全文

posted @ 2017-10-24 13:12 soyosuyang 阅读(1440) 评论(0) 推荐(0)

对RDD分区的理解

摘要：举个例子： 667.txt: part-00000 _SUCCESS 668.txt: part-00000 part-00001 part-00002 part-00003 part-00004 part-00005 part-00006 part-00007 _SUCCESS 如果设置.setM 阅读全文

posted @ 2017-10-20 18:18 soyosuyang 阅读(1240) 评论(0) 推荐(0)

DStream 转换操作------有状态转换操作

摘要：注意：阅读全文

posted @ 2017-10-20 16:57 soyosuyang 阅读(1120) 评论(0) 推荐(0)

Spark2.0 VS Spark 1.* -------SparkSession的区别

摘要：都好使！！ 2.2.0 阅读全文

posted @ 2017-10-19 16:34 soyosuyang 阅读(2509) 评论(0) 推荐(0)

DStream 转换操作----无状态转换

摘要：DStream转换操作包括无状态转换和有状态转换。无状态转换：每个批次的处理不依赖于之前批次的数据。有状态转换：当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。 DStream无状态转换操作包括： map 阅读全文

posted @ 2017-10-19 15:34 soyosuyang 阅读(2580) 评论(0) 推荐(1)

IDEA Spark Streaming Flume数据源 --解决无法转化为实际输入数据，及中文乱码(Scala)

摘要：需要三步： 1.shell：往 1234 端口写数据 nc localhost 1234 2.shell：启动flume服务 cd /usr/local2/flume/bin ./flume-ng agent --conf /usr/local2/flume/conf -f /usr/local2 阅读全文

posted @ 2017-10-18 20:13 soyosuyang 阅读(778) 评论(0) 推荐(0)

IDEA Spark Streaming Kafka数据源-Consumer

摘要：结果：需要Kafka-Producer程序输入数据 Time: 1508230980000 ms (4,61)(8,69)(6,66)(0,70)(2,61)(7,69)(5,61)(9,74)(3,62)(1,72) Time: 1508230990000 ms (4,61)(8,69)(6,66 阅读全文

posted @ 2017-10-17 19:10 soyosuyang 阅读(299) 评论(0) 推荐(0)

IDEA Spark Streaming Kafka数据源-Producer

摘要：结果： 4 6 9 7 6 8 30 0 8 3 9 3 42 2 1 9 2 2 36 2 5 8 1 0 76 9 6 8 5 8 07 8 6 5 3 4 43 7 9 1 3 1 99 0 0 9 0 6 92 5 2 8 3 6 59 3 2 6 2 6 82 1 2 7 2 7 3 阅读全文

posted @ 2017-10-17 19:07 soyosuyang 阅读(608) 评论(0) 推荐(0)

IDEA Spark Streaming 操作(RDD队列流)

摘要：import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.collection.mutable object DStream_RDDqueue { def main(... 阅读全文

posted @ 2017-10-16 19:38 soyosuyang 阅读(1178) 评论(0) 推荐(0)

IDEA Spark Streaming 操作(套接字流)-----make socket数据源

摘要：功能：随机读取1.txt文件内的一行发送到6667端口备注：需要同时运行监听程序阅读全文

posted @ 2017-10-16 11:23 soyosuyang 阅读(406) 评论(0) 推荐(0)

IDEA Spark Streaming 操作(套接字流)

摘要：运行程序之前使6666处于监听模式：nc -l 6666 之后输入的数据会被程序捕捉到 nc命令详解： NetCat，在网络工具中有“瑞士军刀”美誉，其有Windows和Linux的版本。因为它短小精悍（1.84版本也不过25k，旧版本或缩减版甚至更小）、功能实用，被设计为一个简单、可靠的网络工具，阅读全文

posted @ 2017-10-15 19:43 soyosuyang 阅读(577) 评论(0) 推荐(0)

IDEA Spark Streaming 操作(文件源)

摘要：结果: Time: 1508045550000 ms Time: 1508045565000 ms Time: 1508045580000 ms (88,2)(4,1)(8,1)(ya,1)(55,2)(me,2)(49,1)(i,4)(9,1)(but,1)(1,2)(dont,1)(2,2)(7 阅读全文

posted @ 2017-10-15 13:36 soyosuyang 阅读(597) 评论(0) 推荐(0)

Spark 操作Hive 流程

摘要：1.ubuntu 装mysql 2.进入mysql： 3.mysql>create database hive （这个将来是存你在Hive中建的数据库以及表的信息的（也就是元数据））mysql=》hive 这里不存具体数值 4.mysql> grant all on *.* to hive@loc 阅读全文

posted @ 2017-10-14 18:23 soyosuyang 阅读(2957) 评论(0) 推荐(0)

spark 操作Hive时遇到的问题

摘要：To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).17/10/14 17:34:00 WARN util.NativeCodeLoader: Unable to lo 阅读全文

posted @ 2017-10-14 17:40 soyosuyang 阅读(2025) 评论(0) 推荐(1)

IDEA 中Spark SQL通过JDBC连接mysql数据库

摘要：一.IDEA装驱动： 1.下载一个MySQL的JDBC驱动：mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudle中选Dependencies + JDC驱动的解压位置选（mysql-connector-ja 阅读全文

posted @ 2017-10-13 13:20 soyosuyang 阅读(8120) 评论(0) 推荐(0)

Spark中统计程序运行时间

摘要：结果： NowDate：结果类似为：2017-10-12 20:14:5714:5715:0300:06 (差值结果）阅读全文

posted @ 2017-10-12 20:24 soyosuyang 阅读(3810) 评论(0) 推荐(0)

Spark SQL 操作Hive 数据

摘要：结果：+ + +|key| value|+ + +|238|val_238|| 86| val_86||311|val_311|| 27| val_27||165|val_165||409|val_409||255|val_255||278|val_278|| 98| val_98||484|val 阅读全文

posted @ 2017-10-12 15:28 soyosuyang 阅读(1364) 评论(0) 推荐(0)

Spark SQL读parquet文件及保存

摘要：补充：需要多数据源整合查询时： val data=result1.union(result2) data.createOrReplaceTempView("data") 之后执行后续查询阅读全文

posted @ 2017-10-12 15:20 soyosuyang 阅读(5619) 评论(0) 推荐(1)

Spark SQL中 RDD 转换到 DataFrame (方法二）

摘要：强调它与方法一的区别：当DataFrame的数据结构不能够被提前定义。例如：（1)记录结构已经被编码成字符串 (2) 结构在文本文件中，可能需要为不同场景分别设计属性等以上情况出现适用于以下方法。1.people.txt:soyo8, 35小周, 30小华, 19soyo,88/** * Created by soyo on 17-10-10. * 使用编程方式定义RDD模式 */ ... 阅读全文

posted @ 2017-10-10 20:27 soyosuyang 阅读(323) 评论(0) 推荐(0)

Spark SQL中 RDD 转换到 DataFrame

摘要：1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */import org.apache.spark.sql.catalyst.encoders.Expressio 阅读全文

posted @ 2017-10-10 20:24 soyosuyang 阅读(433) 评论(0) 推荐(0)

soyosuyang

随笔分类 - Spark

公告