Scala & Spark - 随笔分类 - 云雾散人

pyspark

该文被密码保护。

posted @ 2020-12-18 08:53 云雾散人阅读(0) 评论(0) 推荐(0)

环境了解

该文被密码保护。

posted @ 2020-11-24 09:59 云雾散人阅读(6) 评论(0) 推荐(0)

ELK 专题

摘要：国内源真香 Syntactic sugar(语法糖) POI ==> Poor Obfuscation Implementation(可怜的模糊实现？) HSSF ==》 Horrible SpreadSheet Format(可怕的/糟糕的 Spreadsheet 格式。。。) ODPS ⇒ 开放阅读全文

posted @ 2020-10-22 16:05 云雾散人阅读(301) 评论(0) 推荐(0)

scala-玉蕴而珠藏

该文被密码保护。

posted @ 2020-09-03 12:00 云雾散人阅读(0) 评论(0) 推荐(0)

Flume+SPARK SQL+MYSQL 离线实战项目

该文被密码保护。

posted @ 2020-08-13 10:58 云雾散人阅读(0) 评论(0) 推荐(0)

Springboot + echart+Spark streaming + kafka + flume + hbase 实时统计实战

该文被密码保护。

posted @ 2020-08-10 22:59 云雾散人阅读(4) 评论(0) 推荐(0)

log4j + flume + kafka + sparkstreaming 实时流处理

该文被密码保护。

posted @ 2020-08-08 22:15 云雾散人阅读(1) 评论(0) 推荐(0)

scala 从头越

摘要：一个综合小例子，要严格区分函数与方法，与 java 不一样进入面向对象模式匹配柯里化这个隐式好难理解附学习资源水滴产品团队面向 Scala 的技术博客 https://scala.cool/ https://scala.cool/tags/%E4%BB%8E Java %E 阅读全文

posted @ 2019-06-24 10:33 云雾散人阅读(186) 评论(0) 推荐(0)

大数据处理框架

摘要：Spark Storm Flink 阅读全文

posted @ 2019-06-23 20:27 云雾散人阅读(195) 评论(0) 推荐(0)

再次回归 Spark-- 转

摘要："原文地址" combineByKey 三个参数使用idea构建maven 管理的spark项目，默认已经装好了idea 和Scala,mac安装Scala 那么使用idea 新建maven 管理的spark 项目有以下几步: scala插件的安装全局JDK和Library的设置配置全局的S 阅读全文

posted @ 2018-10-30 11:01 云雾散人阅读(182) 评论(0) 推荐(0)

spark RDD 常见操作

摘要：fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.sortByKey 8.cogroup 9.join 10.LeftOutJoin 11.RightOutJoin 1.map(func) 2.flatMap(func) 3.mapPart... 阅读全文

posted @ 2018-01-16 12:26 云雾散人阅读(5241) 评论(0) 推荐(1)

Parquet 格式文件

摘要：Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持（Hive、Impala、Drill等），并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Impala的缘故)合作开发完成并开源，2015年5月从Apache的孵化器里毕业成为Apache顶级项... 阅读全文

posted @ 2018-01-16 12:24 云雾散人阅读(3175) 评论(0) 推荐(0)

spark DataFrame 常见操作

摘要：spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到HIVE中。不得不赞叹datafra... 阅读全文

posted @ 2018-01-16 12:23 云雾散人阅读(16516) 评论(0) 推荐(0)

scala 资料集结

摘要：Scala入门到精通 http://lib.csdn.net/base/scala/structure http://hongjiang.info/scala/ http://blog.csdn.net/lovehuangjiaju/article/details/47612699 http://www.scala-lang.org/old/node/104.html https://... 阅读全文

posted @ 2018-01-16 11:37 云雾散人阅读(353) 评论(0) 推荐(0)

scala 基础知识总结

摘要：在最开始处引入 log 相关的包 import org.apache.log4j.{Logger,Level} 在需要屏蔽日志输出的地方加上这两行代码 // 屏蔽不必要的日志显示在终端上 Logger.getLogger("org.apache.spark").setLevel(Level.ERROR) Logger.getLogger("org.eclipse.jetty.... 阅读全文

posted @ 2018-01-16 11:26 云雾散人阅读(733) 评论(0) 推荐(0)

大数据常见错误解决方案（转载）

摘要：1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 解决方法：add expor 阅读全文

posted @ 2017-12-22 15:09 云雾散人阅读(3422) 评论(0) 推荐(0)

scala 基础到高阶

摘要：本文打算对这小段时间学习 scala 以及 spark 编程技术做个小结，一来温故而知新,而来为以后查阅方便 // 一类说尽 scalapackage com.ghc.bigdataobject AdvancedScala{ def main(args: Array[String]):Unit = 阅读全文

posted @ 2017-12-06 11:22 云雾散人阅读(410) 评论(0) 推荐(0)

云雾散人

拓宽技术栈，深入技术栈，永远学徒空杯心态

随笔分类 - Scala & Spark

公告