02 2016 档案
摘要:我们知道,spark中每个分片都代表着一部分数据,那么分片数量如何被确认的呢? 首先我们使用最常见的HDFS+Spark,sparkDeploy的方式来讨论,spark读取HDFS数据使用的是sparkcontext.textfile(Path, minPartitions): 1 def text
阅读全文
摘要:这题最简单的想法是深搜+记录,由于数据量比较小。这么做可以AC。如果在h大的情况下这种递归方法总会有一些问题。 如果转换一下,这个可以使用递推来解决,先对高度进行由低到高的排序,然后顺序对这些高度计算路径长度,可以通过数学归纳法证明此方法的合理性: 1、首先我们来考虑:一个高度如果是最小,那么由它开
阅读全文
摘要:一开始想用动态规划做,但是发现有可能有环,这样需要做许多额外的处理工作,所以使用dijkstra求单元最短路。 建图使用可交换的优惠物品做有向图,如A需要 B加上一个优惠价格valueB来交换,那么就连接一条B到A的有向边,权值为valueB。探险家设置为0点,对每个物品都有一个有向边,权值为物品的
阅读全文
摘要:很久没接触ACM题偶尔看到了做一道。 原题的详见POJ-2479。 此题看起来最简单的想法肯定是枚举S1,t1,s2,t2。显然的,这种枚举方法是不可行的。那么就需要一些其他的方式。 初看我们知道了t1<s2这条信息,也就是说,如果我们把数据源拆成两份进行二分,那么我们可以将枚举的复杂度缩小到原来的
阅读全文
摘要:第一次看源码还是Spark 1.02。这次看新源码发现调度方式有了一些新的特征,在这里随便写一下。 不变的是,master还是接收Appclient和worker的消息,并且在接收RegisterApplication等消息后会执行一遍schedule()。schedule()依旧会先找到空闲的wo
阅读全文
摘要:此文旨在对spark storage模块进行分析,整理自己所看所得,等以后再整理。 ok,首先看看SparkContext中sparkEnv相关代码: 1 private[spark] def createSparkEnv( 2 conf: SparkConf, 3 isLocal: Boolean
阅读全文