过雁 - 博客园

公告

2015年4月20日

摘要： feature strom （trident）spark streaming说明并行框架基于DAG的任务并行计算引擎（task parallel continuous computational engine Using DAG）基于spark的数据并行计算引擎（data parallel general purpose batch processing engine）数据处理模式(one a... 阅读全文

posted @ 2015-04-20 15:09 过雁阅读(1760) 评论(0) 推荐(0)

2015年3月26日

hive 源码笔记（1）：命令行执行的主流程。

摘要： 1. ‘hive’命令是（默认为hive跟目录）./bin下的一个shell脚本，依次加载./bin/hive-config.sh,./conf/hive-env.sh, 设置与hadoop、spark、hbase等相关的环境变量、辅助jar文件加载，依赖的资源的合法性检查，然后加载载入./lib/ext目录下的所有被称为“service”的脚本里面定义的shell函数，函数里面就是通过“had... 阅读全文

posted @ 2015-03-26 18:47 过雁阅读(598) 评论(0) 推荐(0)

2015年3月16日

linu逻辑分区动态调整大小

摘要：注意：这个动态调整的方法是有丢数据风险的，要确保调整的源分区没有使用或者使用率很低。源分区中如果有重要的文件最好先备份在centos 6.5上操作过lvdisplay 查看已有的分区的大小 lvdisplay ,选择要操作的逻辑分区，对应关系可以从df看出来df确认那个分区比较空闲 df umount 分区挂在的目录：需要先umount，血一般的教训啊（直接lvreduce一个... 阅读全文

posted @ 2015-03-16 16:16 过雁阅读(634) 评论(0) 推荐(0)

2015年2月28日

spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable

摘要：出现“task not serializable"这个错误，一般是因为在map、filter等的参数使用了外部的变量，但是这个变量不能序列化。特别是当引用了某个类（经常是当前类）的成员函数或变量时，会导致这个类的所有成员（整个类）都需要支持序列化。解决这个问题最常用的方法有：如果可以，将依赖的变量放到map、filter等的参数内部定义。这样就可以使用不支持序列化的类；如果可以，将依赖的变量独立... 阅读全文

posted @ 2015-02-28 12:15 过雁阅读(23169) 评论(0) 推荐(0)

2015年2月12日

zeppelin 无法连接一个已有的standalone模式的spark集群

摘要： SparkInterpreter.java 这个文件里面读取master的属性有些问题：原来代码中“master”属性的获取的地方应该是错了。设置和读取这个属性的对象不是同一个如下修改后从新编译，优先读环境变量。然后设置MASTER环境变量后可正常连接。左边是修改后的，右边是原来的。From WizNote 阅读全文

posted @ 2015-02-12 17:06 过雁阅读(540) 评论(0) 推荐(0)

2015年2月10日

SQL optimizer -Query Optimizer Deep Dive

摘要： refer: http://sqlblog.com/blogs/paul_white/archive/2012/04/28/query-optimizer-deep-dive-part-1.aspx SQL是一种结构化查询语言规范，它从逻辑是哪个描述了用户需要的结果，而SQL服务器将这个逻辑需求描述转成能执行的物理执行计划，从而把结果返回给用户。将逻辑需求转换成一个更有效的物理执行计划的过程... 阅读全文

posted @ 2015-02-10 00:24 过雁阅读(1264) 评论(0) 推荐(0)

2015年2月6日

前世今生：Hive、Shark、spark SQL

摘要： Hive （http://en.wikipedia.org/wiki/Apache_Hive ）（非严格的原文顺序翻译） Apache Hive是一个构建在Hadoop上的数据仓库框架，它提供数据的概要信息、查询和分析功能。最早是Facebook开发的，现在也被像Netflix这样的公司使用。Amazon维护了一个为自己定制的分支。 Hive提供了一个类SQL的语音--HiveQL，它将对关系数... 阅读全文

posted @ 2015-02-06 01:47 过雁阅读(7572) 评论(0) 推荐(0)

2015年2月5日

spark streaming 6: BlockGenerator、RateLimiter

摘要： BlockGenerator和RateLimiter其实很简单，但是它包含了几个很重要的属性配置的处理，所以记录一下。/** * Generates batches of objects received by a * [[org.apache.spark.streaming.receiver.Receiver]] and puts them into appropriately * named ... 阅读全文

posted @ 2015-02-05 17:50 过雁阅读(432) 评论(0) 推荐(0)

spark streaming 5: InputDStream

摘要： InputDStream的继承关系。他们都是使用InputDStream这个抽象类的接口进行操作的。特别注意ReceiverInputDStream这个类，大部分时候我们使用的是它作为扩展的基类，因为它才能（更容易）使接收数据的工作分散到各个worker上执行，更符合分布式计算的理念。所有的输入流都某个时间间隔将数据以block的形式保存到spark memory中，但以spark core不同的... 阅读全文

posted @ 2015-02-05 17:17 过雁阅读(1228) 评论(0) 推荐(0)

spark streaming 4: DStreamGraph JobScheduler

摘要： DStreamGraph有点像简洁版的DAG scheduler，负责根据某个时间间隔生成一序列JobSet，以及按照依赖关系序列化。这个类的inputStream和outputStream是最重要的属性。spark stream将动态的输入流与对流的处理通过一个shuffle来连接。前面的（shuffle map）是input stream，其实是DStream的子类，它们负责将收集的数据以bl... 阅读全文

posted @ 2015-02-05 14:46 过雁阅读(747) 评论(0) 推荐(0)