云雾散人

2018年1月16日

摘要： Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持（Hive、Impala、Drill等），并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Impala的缘故)合作开发完成并开源，2015年5月从Apache的孵化器里毕业成为Apache顶级项... 阅读全文

posted @ 2018-01-16 12:24 云雾散人阅读(3163) 评论(0) 推荐(0)

spark DataFrame 常见操作

摘要： spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到HIVE中。不得不赞叹datafra... 阅读全文

posted @ 2018-01-16 12:23 云雾散人阅读(16509) 评论(0) 推荐(0)

scala 资料集结

摘要： Scala入门到精通 http://lib.csdn.net/base/scala/structure http://hongjiang.info/scala/ http://blog.csdn.net/lovehuangjiaju/article/details/47612699 http://www.scala-lang.org/old/node/104.html https://... 阅读全文

posted @ 2018-01-16 11:37 云雾散人阅读(348) 评论(0) 推荐(0)

scala 基础知识总结

摘要：在最开始处引入 log 相关的包 import org.apache.log4j.{Logger,Level} 在需要屏蔽日志输出的地方加上这两行代码 // 屏蔽不必要的日志显示在终端上 Logger.getLogger("org.apache.spark").setLevel(Level.ERROR) Logger.getLogger("org.eclipse.jetty.... 阅读全文

posted @ 2018-01-16 11:26 云雾散人阅读(731) 评论(0) 推荐(0)

python 玩具代码

摘要：脚本语言的第一行，目的就是指出，你想要你的这个文件中的代码用什么可执行程序去运行它，就这么简单 #!/usr/bin/python是告诉操作系统执行这个脚本的时候，调用/usr/bin下的python解释器；#!/usr/bin/env python这种用法是为了防止操作系统用户没有将python装阅读全文

posted @ 2018-01-16 11:00 云雾散人阅读(590) 评论(0) 推荐(0)

2017年12月22日

大数据常见错误解决方案（转载）

摘要： 1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 解决方法：add expor 阅读全文

posted @ 2017-12-22 15:09 云雾散人阅读(3415) 评论(0) 推荐(0)

2017年12月6日

scala 基础到高阶

摘要：本文打算对这小段时间学习 scala 以及 spark 编程技术做个小结，一来温故而知新,而来为以后查阅方便 // 一类说尽 scalapackage com.ghc.bigdataobject AdvancedScala{ def main(args: Array[String]):Unit = 阅读全文

posted @ 2017-12-06 11:22 云雾散人阅读(407) 评论(0) 推荐(0)

2017年4月7日

那些年的网络通信之 TCP/IP 传输控制协议 ip 加端口客户端上传文件到服务器端服务器端返回上传成功消息

摘要：效果图：阅读全文

posted @ 2017-04-07 14:00 云雾散人阅读(205) 评论(0) 推荐(0)

2017年4月6日

那些年的网络通信之 TCP/IP 传输控制协议 ip 加端口 ---

摘要： /* 一个文本小写转换为大写的小程序,当客户端从键盘录入一串字符串发送到服务端服务端转换为大写返回给客户端 */ import java.io.*; import java.net.*; class TCPServer implements Runnable{ private ServerSocket serverSocket; private Socket socket; pri... 阅读全文

posted @ 2017-04-06 09:35 云雾散人阅读(301) 评论(0) 推荐(0)

2017年4月5日

那些年的网络通信之 UDP 数据报包传输---

摘要：下面是一个多线程,基于 UDP 用户数据报包协议的控制台聊天小程序阅读全文

posted @ 2017-04-05 16:01 云雾散人阅读(264) 评论(0) 推荐(0)

拓宽技术栈，深入技术栈，永远学徒空杯心态

公告