12 2016 档案
摘要:关于Parquet的详细介绍,请参考: 新一代列式存储格式Parquet,此文中对Parquet做了详细的介绍,这里不做重复介绍,但其中关于Definition Level(DL)和Repeated Level(RL)部分,比较难懂,这里做一个更加方便易懂的总结。 对DL和RL的理解,最好是文中的关
阅读全文
摘要:方法一:使用vbs启动,新建一个vbs脚本,内容如下: set ws=WScript.CreateObject("WScript.Shell") ws.Run "test.cmd",0 方法二:将程序注册成windows服务,详情见:将bat文件或exe程序注册成windows服务
阅读全文
摘要:命令行使用sc命令.关于sc命令的详解,请自行查看帮助(sc /?),在此只简单提及如何加入系统服务功能.加入服务:sc create ServiceName binPath= 路径 start= auto(等号后面的空格必须)删除服务:sc delete ServiceName例一:将Tomcat
阅读全文
摘要:1.下载hadoop-2.7.2.tar.gz 2.解压到D:\hadoop\ 3.配置HADOOP_HOME环境变量 4.将%HADOOP_HOME%\bin目录添加到path环境变量中 5.配置JAVA_HOME环境变量,注意路径不要带空格 6.下载hadoop-common-bin工具包(注意
阅读全文
摘要:Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同时搞定在线应用(消息)和...
阅读全文
摘要:RDD 优点: 编译时类型安全编译时就能检查出类型错误 面向对象的编程风格直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLContext import org.apache.sp...
阅读全文
摘要:图的集合视图 图信息接口 缓存方法 节点与边的变换操作 修改图结构操作 图join操作 在邻边上聚合信息 VertexRDD与RDD有一个明显的区别是,VertexRDD的key不重复,而RDD的key可以重复 aggregateUsingIndex函数的作用类似于reduceByKey,如vert
阅读全文

浙公网安备 33010602011771号