随笔分类 - Scala & Spark
函数式编程与大数据时代结合
摘要:国内源真香 Syntactic sugar(语法糖) POI ==> Poor Obfuscation Implementation(可怜的模糊实现?) HSSF ==》 Horrible SpreadSheet Format(可怕的/糟糕的 Spreadsheet 格式。。。) ODPS ⇒ 开放
阅读全文
该文被密码保护。
该文被密码保护。
摘要:一个综合小例子, 要严格区分 函数与方法 , 与 java 不一样 进入面向对象 模式匹配 柯里化 这个隐式 好难理解 附 学习资源 水滴产品团队 面向 Scala 的技术博客 https://scala.cool/ https://scala.cool/tags/%E4%BB%8E Java %E
阅读全文
摘要:"原文地址" combineByKey 三个参数 使用idea构建maven 管理的spark项目 ,默认已经装好了idea 和Scala,mac安装Scala 那么使用idea 新建maven 管理的spark 项目有以下几步: scala插件的安装 全局JDK和Library的设置 配置全局的S
阅读全文
摘要:fold 操作 区别 与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.sortByKey 8.cogroup 9.join 10.LeftOutJoin 11.RightOutJoin 1.map(func) 2.flatMap(func) 3.mapPart...
阅读全文
摘要:Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Impala的缘故)合作开发完成并开源,2015年5月从Apache的孵化器里毕业成为Apache顶级项...
阅读全文
摘要:spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。 不得不赞叹datafra...
阅读全文
摘要:Scala入门到精通 http://lib.csdn.net/base/scala/structure http://hongjiang.info/scala/ http://blog.csdn.net/lovehuangjiaju/article/details/47612699 http://www.scala-lang.org/old/node/104.html https://...
阅读全文
摘要:在最开始处引入 log 相关的 包 import org.apache.log4j.{Logger,Level} 在需要屏蔽日志输出的地方加上这两行代码 // 屏蔽不必要的日志显示在终端上 Logger.getLogger("org.apache.spark").setLevel(Level.ERROR) Logger.getLogger("org.eclipse.jetty....
阅读全文
摘要:1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 解决方法:add expor
阅读全文
摘要:本文打算对这小段时间学习 scala 以及 spark 编程技术做个小结,一来温故而知新,而来为以后查阅方便 // 一类说尽 scalapackage com.ghc.bigdataobject AdvancedScala{ def main(args: Array[String]):Unit =
阅读全文


浙公网安备 33010602011771号