上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 56 下一页

2020年9月30日

摘要: 只有key-value类型的rdd才有分区器 1 HashPartitioner 分区方法 HashPartitioner 是通过对 RDD中的key求取hash值,再对hash值对分区数partitions 取余数得到,如果余数<0,那么就取“余数+partitions”,作为该row对应的分区编 阅读全文
posted @ 2020-09-30 13:46 happygril3 阅读(167) 评论(0) 推荐(0)
摘要: 1. cache/persist Spark 中一个很重要的能力是将数据persisting持久化(或称为caching缓存),在多个操作间都可以访问这些持久化的数据。 当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内 阅读全文
posted @ 2020-09-30 10:34 happygril3 阅读(210) 评论(0) 推荐(0)

2020年9月28日

摘要: 给定m行n列得网格,有一个机器人从左上角(0,0)出发,每一步可以向下或者向右走,问右多少种不同的方式走到右下角 原题:机器有多少种方式从左上角走到(m-1,n-1)子问题:状态:设f[i][j]为机器人有多少种方式从左上角走到(i,j)f[i][j]=f[i-1][j]+f[i]f[j-1]初始条 阅读全文
posted @ 2020-09-28 19:14 happygril3 阅读(508) 评论(0) 推荐(0)

2020年9月27日

摘要: 假设有 1 元, 3 元, 5 元的硬币若干(无限) , 现在需要凑出 11 元,问如何组合才能使硬币的数量最少? d(i) = d(j) + 1, j < i。通俗地讲,如果我们需要凑出 i 元,就在凑出 j 的结果上再加上某一个硬币就行了。 那这里我们加上的是哪个硬币呢。嗯,其实很简单,把每个硬 阅读全文
posted @ 2020-09-27 18:27 happygril3 阅读(285) 评论(0) 推荐(0)
摘要: 1. 01背包 1.1 题目 最基本的背包问题就是01背包问题(01 knapsack problem):一共有N件物品,第i(i从1开始)件物品的重量为w[i],价值为v[i]。在总重量不超过背包承载上限W的情况下,能够装入背包的最大价值是多少? 1.2 分析 如果采用暴力穷举的方式,每件物品都存 阅读全文
posted @ 2020-09-27 18:23 happygril3 阅读(227) 评论(0) 推荐(0)
摘要: (1)基于L1惩罚项的模型 (2)主成分分析法(PCA) PCA是为了让映射后的样本具有最大的发散性;无监督的降维方法 from sklearn.decomposition import PCA #主成分分析法,返回降维后的数据 #参数n_components为主成分数目 PCA(n_compone 阅读全文
posted @ 2020-09-27 11:07 happygril3 阅读(125) 评论(0) 推荐(0)
摘要: 根据特征选择的形式又可以将特征选择方法分为3种: (1)Filter 1.1 方差选择法 使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。 from sklearn.feature_selection import VarianceThreshold #方差选择法,返回 阅读全文
posted @ 2020-09-27 10:59 happygril3 阅读(187) 评论(0) 推荐(0)

2020年9月25日

摘要: map端数据倾斜:输入文件大小不一致 reduce端数据倾斜:partition不一致 小表要放在前面,大表放在后面 例如A表id=3有1条记录,B表id=3有10条记录。 首先读取v[0]发现是A表的记录,用了1次读取操作。然后再读取v[1]发现是B表的操作,这时v[0]和v[1]可以直接关联输出 阅读全文
posted @ 2020-09-25 15:07 happygril3 阅读(162) 评论(0) 推荐(0)

2020年9月24日

摘要: 任务划分 RDD任务切分中间分为:Application,Job,Stage,Task Application:初始化一个SparkContext就生成一个ApplicationJob:一个行动算子生成一个JobStage:根据RDD之间的依赖关系的不同将Job划分为不同的Stage,遇到一个宽依赖 阅读全文
posted @ 2020-09-24 16:38 happygril3 阅读(369) 评论(0) 推荐(0)
摘要: 序列化就是指将一个对象转化为二进制的byte流(注意,不是bit流),然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出来。序列化常被用于数据存取和通信过程中。 Spark是分布式执行引擎,其核心抽象是弹性分布式数据集RDD,其代表了分布在不同节点的数据。 Spark的计算是在execut 阅读全文
posted @ 2020-09-24 14:26 happygril3 阅读(171) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 56 下一页

导航