上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 56 下一页

2020年10月21日

摘要: 1.设计哈希映射 不使用任何内建的哈希表库设计一个哈希映射 具体地说,你的设计应该包含以下的功能 put(key, value):向哈希映射中插入(键,值)的数值对。如果键对应的值已经存在,更新这个值。 get(key):返回给定的键所对应的值,如果映射中不包含这个键,返回-1。 remove(ke 阅读全文
posted @ 2020-10-21 16:46 happygril3 阅读(74) 评论(0) 推荐(0)

2020年10月20日

摘要: 1.用户自定义UDF函数 import org.apache.spark.{SparkConf,SparkContext} import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} import org.apache.spark.r 阅读全文
posted @ 2020-10-20 14:03 happygril3 阅读(319) 评论(0) 推荐(0)

2020年10月19日

摘要: 1. 找到小镇的法官 在一个小镇里,按从 1 到 N 标记了 N 个人。传言称,这些人中有一个是小镇上的秘密法官。 如果小镇的法官真的存在,那么: 小镇的法官不相信任何人。每个人(除了小镇法官外)都信任小镇的法官。只有一个人同时满足属性 1 和属性 2 。给定数组 trust,该数组由信任对 tru 阅读全文
posted @ 2020-10-19 19:01 happygril3 阅读(92) 评论(0) 推荐(0)
摘要: 在Spark SQL中有两种方式可以在DataFrame和RDD进行转换 首先在maven项目的pom.xml中添加Spark SQL的依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_${scala. 阅读全文
posted @ 2020-10-19 11:38 happygril3 阅读(537) 评论(0) 推荐(0)

2020年10月17日

摘要: 1. 原理 1. 首先输入k的值,即我们希望将数据集经过聚类得到k个分组。 2. 从数据集中随机选择k个数据点作为初始大哥(质心,Centroid) 3. 对集合中每一个小弟,计算与每一个大哥的距离(距离的含义后面会讲),离哪个大哥距离近,就跟定哪个大哥。 4. 这时每一个大哥手下都聚集了一票小弟, 阅读全文
posted @ 2020-10-17 16:49 happygril3 阅读(161) 评论(0) 推荐(1)
摘要: 1. Label encoding Label encoding是使用字典的方式,将每个类别标签与不断增加的整数相关联,即生成一个名为class_的实例数组的索引。 缺点:所有的标签都变成了数字,然后算法模型直接将根据其距离来考虑相似的数字,而不考虑标签的具体含义。 方案一:单列数据 from sk 阅读全文
posted @ 2020-10-17 15:42 happygril3 阅读(547) 评论(0) 推荐(0)

2020年10月14日

摘要: 1.正则化 (1) 随机森林 样本有放回随机采样,特征值采样(每个结点都采一次样,而不是一颗树采一次);剪枝,控制tree深度,控制gain或者gini变化大小以及控制结点样本数等情况,随机森林中没有剪枝操作,但是有max_depth,min_size等进行控制 (2)GBDT 和Adaboost一 阅读全文
posted @ 2020-10-14 09:42 happygril3 阅读(545) 评论(0) 推荐(0)

2020年10月13日

摘要: https://zhuanlan.zhihu.com/p/58883095 1. 平方损失函数 平方损失函数标准形式如下: 特点: (1)经常应用与回归问题 2. 指数损失函数(exponential loss) 指数损失函数的标准形式如下: 特点: (1)对离群点、噪声非常敏感。经常用在AdaBo 阅读全文
posted @ 2020-10-13 16:05 happygril3 阅读(346) 评论(0) 推荐(1)
摘要: https://www.cnblogs.com/wkang/p/9588360.html 一、FM背景 FM(Factorization Machine)主要目标是:解决数据稀疏的情况下,特征怎样组合的问题。 以一个广告分类的问题为例,根据用户画像、广告位以及一些其他的特征,来预测用户是否会点击广告 阅读全文
posted @ 2020-10-13 11:24 happygril3 阅读(338) 评论(0) 推荐(0)

2020年10月12日

摘要: (1) 什么是SparkSQL? spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。 (2)SparkSQL的作用 提供一个编程抽象(DataFrame) 并且作为分布式 SQL 查询引擎 DataFrame:它可以根据很多源进行 阅读全文
posted @ 2020-10-12 18:44 happygril3 阅读(342) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 56 下一页

导航