happygril3

分区器

摘要：只有key-value类型的rdd才有分区器 1 HashPartitioner 分区方法 HashPartitioner 是通过对 RDD中的key求取hash值，再对hash值对分区数partitions 取余数得到，如果余数<0，那么就取“余数+partitions”，作为该row对应的分区编阅读全文

posted @ 2020-09-30 13:46 happygril3 阅读(168) 评论(0) 推荐(0)

缓存

摘要： 1. cache/persist Spark 中一个很重要的能力是将数据persisting持久化（或称为caching缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内阅读全文

posted @ 2020-09-30 10:34 happygril3 阅读(221) 评论(0) 推荐(0)

动态规划_表格

摘要：给定m行n列得网格，有一个机器人从左上角（0，0）出发，每一步可以向下或者向右走，问右多少种不同的方式走到右下角原题：机器有多少种方式从左上角走到（m-1,n-1）子问题：状态：设f[i][j]为机器人有多少种方式从左上角走到(i,j)f[i][j]=f[i-1][j]+f[i]f[j-1]初始条阅读全文

posted @ 2020-09-28 19:14 happygril3 阅读(516) 评论(0) 推荐(0)

动态规划_硬币问题

摘要：假设有 1 元， 3 元， 5 元的硬币若干（无限），现在需要凑出 11 元，问如何组合才能使硬币的数量最少？ d(i) = d(j) + 1， j < i。通俗地讲，如果我们需要凑出 i 元，就在凑出 j 的结果上再加上某一个硬币就行了。那这里我们加上的是哪个硬币呢。嗯，其实很简单，把每个硬阅读全文

posted @ 2020-09-27 18:27 happygril3 阅读(288) 评论(0) 推荐(0)

动态规划_背包问题

摘要： 1. 01背包 1.1 题目最基本的背包问题就是01背包问题（01 knapsack problem）：一共有N件物品，第i（i从1开始）件物品的重量为w[i]，价值为v[i]。在总重量不超过背包承载上限W的情况下，能够装入背包的最大价值是多少？ 1.2 分析如果采用暴力穷举的方式，每件物品都存阅读全文

posted @ 2020-09-27 18:23 happygril3 阅读(245) 评论(0) 推荐(0)

降维

摘要：（1）基于L1惩罚项的模型（2）主成分分析法（PCA） PCA是为了让映射后的样本具有最大的发散性；无监督的降维方法 from sklearn.decomposition import PCA #主成分分析法，返回降维后的数据 #参数n_components为主成分数目 PCA(n_compone 阅读全文

posted @ 2020-09-27 11:07 happygril3 阅读(126) 评论(0) 推荐(0)

特征选择

摘要：根据特征选择的形式又可以将特征选择方法分为3种：（1）Filter 1.1 方差选择法使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。 from sklearn.feature_selection import VarianceThreshold #方差选择法，返回阅读全文

posted @ 2020-09-27 10:59 happygril3 阅读(199) 评论(0) 推荐(0)

数据倾斜

摘要： map端数据倾斜：输入文件大小不一致 reduce端数据倾斜：partition不一致小表要放在前面，大表放在后面例如A表id=3有1条记录，B表id=3有10条记录。首先读取v[0]发现是A表的记录，用了1次读取操作。然后再读取v[1]发现是B表的操作，这时v[0]和v[1]可以直接关联输出阅读全文

posted @ 2020-09-25 15:07 happygril3 阅读(171) 评论(0) 推荐(0)

DAG

摘要：任务划分 RDD任务切分中间分为：Application,Job,Stage,Task Application:初始化一个SparkContext就生成一个ApplicationJob:一个行动算子生成一个JobStage:根据RDD之间的依赖关系的不同将Job划分为不同的Stage，遇到一个宽依赖阅读全文

posted @ 2020-09-24 16:38 happygril3 阅读(371) 评论(0) 推荐(0)

序列化

摘要：序列化就是指将一个对象转化为二进制的byte流（注意，不是bit流），然后以文件的方式进行保存或通过网络传输，等待被反序列化读取出来。序列化常被用于数据存取和通信过程中。 Spark是分布式执行引擎，其核心抽象是弹性分布式数据集RDD，其代表了分布在不同节点的数据。 Spark的计算是在execut 阅读全文

posted @ 2020-09-24 14:26 happygril3 阅读(178) 评论(0) 推荐(0)

导航

公告