happygril3

哈希

摘要： 1.设计哈希映射不使用任何内建的哈希表库设计一个哈希映射具体地说，你的设计应该包含以下的功能 put(key, value)：向哈希映射中插入(键,值)的数值对。如果键对应的值已经存在，更新这个值。 get(key)：返回给定的键所对应的值，如果映射中不包含这个键，返回-1。 remove(ke 阅读全文

posted @ 2020-10-21 16:46 happygril3 阅读(74) 评论(0) 推荐(0)

dataframe用户自定义函数

摘要： 1.用户自定义UDF函数 import org.apache.spark.{SparkConf,SparkContext} import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} import org.apache.spark.r 阅读全文

posted @ 2020-10-20 14:03 happygril3 阅读(319) 评论(0) 推荐(0)

图

摘要： 1. 找到小镇的法官在一个小镇里，按从 1 到 N 标记了 N 个人。传言称，这些人中有一个是小镇上的秘密法官。如果小镇的法官真的存在，那么：小镇的法官不相信任何人。每个人（除了小镇法官外）都信任小镇的法官。只有一个人同时满足属性 1 和属性 2 。给定数组 trust，该数组由信任对 tru 阅读全文

posted @ 2020-10-19 19:01 happygril3 阅读(95) 评论(0) 推荐(0)

DataFrame

摘要：在Spark SQL中有两种方式可以在DataFrame和RDD进行转换首先在maven项目的pom.xml中添加Spark SQL的依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_${scala. 阅读全文

posted @ 2020-10-19 11:38 happygril3 阅读(549) 评论(0) 推荐(0)

k-means

摘要： 1. 原理 1. 首先输入k的值，即我们希望将数据集经过聚类得到k个分组。 2. 从数据集中随机选择k个数据点作为初始大哥（质心，Centroid） 3. 对集合中每一个小弟，计算与每一个大哥的距离（距离的含义后面会讲），离哪个大哥距离近，就跟定哪个大哥。 4. 这时每一个大哥手下都聚集了一票小弟，阅读全文

posted @ 2020-10-17 16:49 happygril3 阅读(161) 评论(0) 推荐(1)

类别变量

摘要： 1. Label encoding Label encoding是使用字典的方式，将每个类别标签与不断增加的整数相关联，即生成一个名为class_的实例数组的索引。缺点：所有的标签都变成了数字，然后算法模型直接将根据其距离来考虑相似的数字，而不考虑标签的具体含义。方案一：单列数据 from sk 阅读全文

posted @ 2020-10-17 15:42 happygril3 阅读(548) 评论(0) 推荐(0)

树模型

摘要： 1.正则化（1）随机森林样本有放回随机采样，特征值采样（每个结点都采一次样，而不是一颗树采一次）;剪枝,控制tree深度,控制gain或者gini变化大小以及控制结点样本数等情况,随机森林中没有剪枝操作，但是有max_depth,min_size等进行控制（2）GBDT 和Adaboost一阅读全文

posted @ 2020-10-14 09:42 happygril3 阅读(577) 评论(0) 推荐(0)

损失函数

摘要： https://zhuanlan.zhihu.com/p/58883095 1. 平方损失函数平方损失函数标准形式如下：特点： (1)经常应用与回归问题 2. 指数损失函数（exponential loss）指数损失函数的标准形式如下：特点： (1)对离群点、噪声非常敏感。经常用在AdaBo 阅读全文

posted @ 2020-10-13 16:05 happygril3 阅读(354) 评论(0) 推荐(1)

FM

摘要： https://www.cnblogs.com/wkang/p/9588360.html 一、FM背景 FM(Factorization Machine)主要目标是：解决数据稀疏的情况下，特征怎样组合的问题。以一个广告分类的问题为例，根据用户画像、广告位以及一些其他的特征，来预测用户是否会点击广告阅读全文

posted @ 2020-10-13 11:24 happygril3 阅读(338) 评论(0) 推荐(0)

SparkSQL

摘要： (1) 什么是SparkSQL? spark SQL是spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。 (2)SparkSQL的作用提供一个编程抽象（DataFrame）并且作为分布式 SQL 查询引擎 DataFrame：它可以根据很多源进行阅读全文

posted @ 2020-10-12 18:44 happygril3 阅读(355) 评论(0) 推荐(0)

导航

公告