2016 年 2月随笔档案 - 月影舞华

spark分片个数的确定及Spark内存错误(GC error)的迂回解决方式

摘要：我们知道，spark中每个分片都代表着一部分数据，那么分片数量如何被确认的呢？首先我们使用最常见的HDFS+Spark，sparkDeploy的方式来讨论，spark读取HDFS数据使用的是sparkcontext.textfile(Path, minPartitions)： 1 def text 阅读全文

posted @ 2016-02-23 10:04 月影舞华阅读(3305) 评论(0) 推荐(0)

POJ-1088 滑雪（包含部分自用测试数据）

摘要：这题最简单的想法是深搜+记录，由于数据量比较小。这么做可以AC。如果在h大的情况下这种递归方法总会有一些问题。如果转换一下，这个可以使用递推来解决，先对高度进行由低到高的排序，然后顺序对这些高度计算路径长度，可以通过数学归纳法证明此方法的合理性： 1、首先我们来考虑：一个高度如果是最小，那么由它开阅读全文

posted @ 2016-02-18 18:52 月影舞华阅读(2134) 评论(1) 推荐(0)

POJ-1062 昂贵的聘礼

摘要：一开始想用动态规划做，但是发现有可能有环，这样需要做许多额外的处理工作，所以使用dijkstra求单元最短路。建图使用可交换的优惠物品做有向图，如A需要 B加上一个优惠价格valueB来交换，那么就连接一条B到A的有向边，权值为valueB。探险家设置为0点，对每个物品都有一个有向边，权值为物品的阅读全文

posted @ 2016-02-18 17:28 月影舞华阅读(180) 评论(0) 推荐(0)

POJ-2479 Maximum sum

摘要：很久没接触ACM题偶尔看到了做一道。原题的详见POJ-2479。此题看起来最简单的想法肯定是枚举S1,t1,s2,t2。显然的，这种枚举方法是不可行的。那么就需要一些其他的方式。初看我们知道了t1<s2这条信息，也就是说，如果我们把数据源拆成两份进行二分，那么我们可以将枚举的复杂度缩小到原来的阅读全文

posted @ 2016-02-17 14:59 月影舞华阅读(714) 评论(0) 推荐(0)

Spark 1.60的executor schedule

摘要：第一次看源码还是Spark 1.02。这次看新源码发现调度方式有了一些新的特征，在这里随便写一下。不变的是，master还是接收Appclient和worker的消息，并且在接收RegisterApplication等消息后会执行一遍schedule()。schedule()依旧会先找到空闲的wo 阅读全文

posted @ 2016-02-16 10:42 月影舞华阅读(564) 评论(0) 推荐(0)

spark storage之SparkEnv

摘要：此文旨在对spark storage模块进行分析，整理自己所看所得，等以后再整理。 ok，首先看看SparkContext中sparkEnv相关代码： 1 private[spark] def createSparkEnv( 2 conf: SparkConf, 3 isLocal: Boolean 阅读全文

posted @ 2016-02-16 10:33 月影舞华阅读(606) 评论(0) 推荐(0)

月影舞华

02 2016 档案

公告