随笔分类 - Spark
摘要:结果: + + +| id| text|+ + +| 4| spark i like|| 5|hadoop spark book|| 6| soyo9 soy 88|+ + +StructField(id,IntegerType,false)StructField(text,StringType,t
阅读全文
摘要:举个例子: 667.txt: part-00000 _SUCCESS 668.txt: part-00000 part-00001 part-00002 part-00003 part-00004 part-00005 part-00006 part-00007 _SUCCESS 如果设置.setM
阅读全文
摘要:都好使!! 2.2.0
阅读全文
摘要:DStream转换操作包括无状态转换和有状态转换。 无状态转换:每个批次的处理不依赖于之前批次的数据。 有状态转换:当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。 DStream无状态转换操作包括: map
阅读全文
摘要:需要三步: 1.shell:往 1234 端口写数据 nc localhost 1234 2.shell: 启动flume服务 cd /usr/local2/flume/bin ./flume-ng agent --conf /usr/local2/flume/conf -f /usr/local2
阅读全文
摘要:结果:需要Kafka-Producer程序输入数据 Time: 1508230980000 ms (4,61)(8,69)(6,66)(0,70)(2,61)(7,69)(5,61)(9,74)(3,62)(1,72) Time: 1508230990000 ms (4,61)(8,69)(6,66
阅读全文
摘要:结果: 4 6 9 7 6 8 30 0 8 3 9 3 42 2 1 9 2 2 36 2 5 8 1 0 76 9 6 8 5 8 07 8 6 5 3 4 43 7 9 1 3 1 99 0 0 9 0 6 92 5 2 8 3 6 59 3 2 6 2 6 82 1 2 7 2 7 3
阅读全文
摘要:import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.collection.mutable object DStream_RDDqueue { def main(...
阅读全文
摘要:功能:随机读取1.txt文件内的一行 发送到6667端口 备注:需要同时运行监听程序
阅读全文
摘要:运行程序之前使6666处于监听模式:nc -l 6666 之后输入的数据会被程序捕捉到 nc命令详解: NetCat,在网络工具中有“瑞士军刀”美誉,其有Windows和Linux的版本。因为它短小精悍(1.84版本也不过25k,旧版本或缩减版甚至更小)、功能实用,被设计为一个简单、可靠的网络工具,
阅读全文
摘要:结果: Time: 1508045550000 ms Time: 1508045565000 ms Time: 1508045580000 ms (88,2)(4,1)(8,1)(ya,1)(55,2)(me,2)(49,1)(i,4)(9,1)(but,1)(1,2)(dont,1)(2,2)(7
阅读全文
摘要:1.ubuntu 装mysql 2.进入mysql: 3.mysql>create database hive (这个将来是存 你在Hive中建的数据库以及表的信息的(也就是元数据))mysql=》hive 这里不存具体数值 4.mysql> grant all on *.* to hive@loc
阅读全文
摘要:To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).17/10/14 17:34:00 WARN util.NativeCodeLoader: Unable to lo
阅读全文
摘要:一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudle中 选Dependencies + JDC驱动的解压位置 选(mysql-connector-ja
阅读全文
摘要:结果: NowDate:结果类似为:2017-10-12 20:14:5714:5715:0300:06 (差值结果)
阅读全文
摘要:结果:+ + +|key| value|+ + +|238|val_238|| 86| val_86||311|val_311|| 27| val_27||165|val_165||409|val_409||255|val_255||278|val_278|| 98| val_98||484|val
阅读全文
摘要:补充:需要多数据源整合查询时: val data=result1.union(result2) data.createOrReplaceTempView("data") 之后执行后续查询
阅读全文
摘要:强调它与方法一的区别:当DataFrame的数据结构不能够被提前定义。例如:(1)记录结构已经被编码成字符串 (2) 结构在文本文件中,可能需要为不同场景分别设计属性等以上情况出现适用于以下方法。1.people.txt:soyo8, 35小周, 30小华, 19soyo,88/** * Created by soyo on 17-10-10. * 使用编程方式定义RDD模式 */ ...
阅读全文
摘要:1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */import org.apache.spark.sql.catalyst.encoders.Expressio
阅读全文

浙公网安备 33010602011771号