过雁

--每天都被梦想唤醒--

   :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 2 3 4 5 6 ··· 8 下一页

2015年4月20日

摘要: feature strom (trident)spark streaming说明并行框架基于DAG的任务并行计算引擎(task parallel continuous computational engine Using DAG)基于spark的数据并行计算引擎(data parallel general purpose batch processing engine)数据处理模式(one a... 阅读全文
posted @ 2015-04-20 15:09 过雁 阅读(1739) 评论(0) 推荐(0) 编辑

2015年3月26日

摘要: 1. ‘hive’命令是(默认为hive跟目录)./bin下的一个shell脚本,依次加载./bin/hive-config.sh,./conf/hive-env.sh, 设置与hadoop、spark、hbase等相关的环境变量、辅助jar文件加载,依赖的资源的合法性检查, 然后加载载入./lib/ext目录下的所有被称为“service”的脚本里面定义的shell函数,函数里面就是通过“had... 阅读全文
posted @ 2015-03-26 18:47 过雁 阅读(585) 评论(0) 推荐(0) 编辑

2015年3月16日

摘要: 注意: 这个动态调整的方法是有丢数据风险的,要确保调整的源分区没有使用或者使用率很低。源分区中如果有重要的文件最好先备份在centos 6.5上操作过lvdisplay 查看已有的分区的大小 lvdisplay ,选择要操作的逻辑分区,对应关系可以从df看出来df确认那个分区比较空闲 df umount 分区挂在的目录: 需要先umount,血一般的教训啊(直接lvreduce一个... 阅读全文
posted @ 2015-03-16 16:16 过雁 阅读(618) 评论(0) 推荐(0) 编辑

2015年2月28日

摘要: 出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有:如果可以,将依赖的变量放到map、filter等的参数内部定义。这样就可以使用不支持序列化的类;如果可以,将依赖的变量独立... 阅读全文
posted @ 2015-02-28 12:15 过雁 阅读(22886) 评论(0) 推荐(0) 编辑

2015年2月12日

摘要: SparkInterpreter.java 这个文件里面读取master的属性有些问题:原来代码中“master”属性的获取的地方应该是错了。设置和读取这个属性的对象不是同一个如下修改后从新编译,优先读环境变量。然后设置MASTER环境变量后可正常连接。左边是修改后的,右边是原来的。From WizNote 阅读全文
posted @ 2015-02-12 17:06 过雁 阅读(526) 评论(0) 推荐(0) 编辑

2015年2月10日

摘要: refer: http://sqlblog.com/blogs/paul_white/archive/2012/04/28/query-optimizer-deep-dive-part-1.aspx SQL是一种结构化查询语言规范,它从逻辑是哪个描述了用户需要的结果,而SQL服务器将这个逻辑需求描述转成能执行的物理执行计划,从而把结果返回给用户。将逻辑需求转换成一个更有效的物理执行计划的过程... 阅读全文
posted @ 2015-02-10 00:24 过雁 阅读(1120) 评论(0) 推荐(0) 编辑

2015年2月6日

摘要: Hive (http://en.wikipedia.org/wiki/Apache_Hive )(非严格的原文顺序翻译) Apache Hive是一个构建在Hadoop上的数据仓库框架,它提供数据的概要信息、查询和分析功能。最早是Facebook开发的,现在也被像Netflix这样的公司使用。Amazon维护了一个为自己定制的分支。 Hive提供了一个类SQL的语音--HiveQL,它将对关系数... 阅读全文
posted @ 2015-02-06 01:47 过雁 阅读(7405) 评论(0) 推荐(0) 编辑

2015年2月5日

摘要: BlockGenerator和RateLimiter其实很简单,但是它包含了几个很重要的属性配置的处理,所以记录一下。/** * Generates batches of objects received by a * [[org.apache.spark.streaming.receiver.Receiver]] and puts them into appropriately * named ... 阅读全文
posted @ 2015-02-05 17:50 过雁 阅读(401) 评论(0) 推荐(0) 编辑

摘要: InputDStream的继承关系。他们都是使用InputDStream这个抽象类的接口进行操作的。特别注意ReceiverInputDStream这个类,大部分时候我们使用的是它作为扩展的基类,因为它才能(更容易)使接收数据的工作分散到各个worker上执行,更符合分布式计算的理念。所有的输入流都某个时间间隔将数据以block的形式保存到spark memory中,但以spark core不同的... 阅读全文
posted @ 2015-02-05 17:17 过雁 阅读(1197) 评论(0) 推荐(0) 编辑

摘要: DStreamGraph有点像简洁版的DAG scheduler,负责根据某个时间间隔生成一序列JobSet,以及按照依赖关系序列化。这个类的inputStream和outputStream是最重要的属性。spark stream将动态的输入流与对流的处理通过一个shuffle来连接。前面的(shuffle map)是input stream,其实是DStream的子类,它们负责将收集的数据以bl... 阅读全文
posted @ 2015-02-05 14:46 过雁 阅读(731) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 8 下一页