会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
PEAR2020
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
18
19
20
21
22
23
24
25
26
···
30
下一页
2020年10月17日
Spark ML 特征处理类之 VectorAssembler 向量装配转换器/VectorIndexer
摘要: 一、VectorAssembler package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.VectorAssembler import org.apache.spa
阅读全文
posted @ 2020-10-17 16:07 PEAR2020
阅读(1299)
评论(0)
推荐(0)
2020年10月16日
JVM 之 GC收集器
摘要: 原文链接参考:https://www.cnblogs.com/chenpt/p/9803298.html
阅读全文
posted @ 2020-10-16 11:19 PEAR2020
阅读(74)
评论(0)
推荐(0)
Spark ML 之 KMeans算法的应用实操——用户分群召回推荐算法
摘要: 一、需求: 现有customers,orders,orderItems,goods表,记录电商相关信息,需要给每类customers推荐他们最感兴趣的商品 表表关系为: 二、思路: 获得特征:组成代表顾客消费特征的DataFrame(如用户年龄,用户会员等级) 归一化特征:除了ID标识,所有特征归一
阅读全文
posted @ 2020-10-16 09:42 PEAR2020
阅读(522)
评论(0)
推荐(0)
Jfreechart之 使用Java/scala 绘图
摘要: 一、pom.xml <!-- https://mvnrepository.com/artifact/org.jfree/jfreechart --> <dependency> <groupId>org.jfree</groupId> <artifactId>jfreechart</artifactI
阅读全文
posted @ 2020-10-16 08:49 PEAR2020
阅读(252)
评论(0)
推荐(0)
2020年10月15日
spark SQL之 Dataframe中na.fill的用法
摘要: 对两个数据表如A,B取JOIN操作的时候,其结果往往会出现NULL值的出现。 这种情况是非常不利于后续的分析与计算的,特别是当涉及到对这个数值列进行各种聚合函数计算的时候。 Spark为此提供了一个高级操作,就是:na.fill的函数。 其处理过程就是先构建一个MAP,如下: val map = M
阅读全文
posted @ 2020-10-15 16:03 PEAR2020
阅读(2871)
评论(0)
推荐(0)
Spark ML 之 稀疏和稠密向量
摘要: 一、概念:DenseVector和SparseVector 密集向量的值就是一个普通的Double数组 稀疏向量由两个并列的数组 indices和values 组成 密集:[1.0,0.0,3.0] 其和一般的数组无异 稀疏:(3,[0,2],[1.0,3.0]) 其表示的含义(元素的个数,元素的下
阅读全文
posted @ 2020-10-15 11:43 PEAR2020
阅读(523)
评论(0)
推荐(0)
Spark ML 之 如何将海量字符串映射为数字——StringIndexer/IndexToString
摘要: 一、StringIndexer 在使用Spark MLlib协同过滤ALS API的时候发现Rating的三个参数:用户id,商品名称,商品打分,前两个都需要是Int值。那么问题来了,当你的用户id,商品名称是String类型的情况下,我们必须寻找一个方法可以将海量String映射为数字类型。好在S
阅读全文
posted @ 2020-10-15 11:03 PEAR2020
阅读(873)
评论(0)
推荐(0)
机器学习 之 聚类 之 K-means算法
摘要: 一、聚类定义 聚类分析(cluster analysis)就是给你一堆杂七杂八的样本数据把它们分成几个组,组内成员有一定的相似,不同组之间成员有一定的差别。 区别与分类分析(classification analysis) 你事先并不知道有哪几类、划分每个类别的标准。 比如垃圾分类就是分类算法,你知
阅读全文
posted @ 2020-10-15 10:10 PEAR2020
阅读(213)
评论(0)
推荐(1)
2020年10月14日
JVM 之 GC
摘要: 一、堆内存图 新生区由于对象产生的比较多并且大都是朝生夕灭的,所以直接采用复制算法。 而养老区生命力很强,则采用标记-清理算法,针对不同情况使用不同算法。 二、各种GC以及触发条件 Minor GC:从年轻代回收内存 触发条件: Eden区域满 新创建的对象大小 > Eden所剩空间 对象分配原
阅读全文
posted @ 2020-10-14 10:24 PEAR2020
阅读(99)
评论(0)
推荐(0)
2020年10月12日
Redis 之 Linux安装 | 命令
摘要: 一、使用版本 二、步骤 cd $REDIS_HOME # 切换至redis解压目录 make MALLOC=libc # 执行编译 cd src # 切换至编译生成的src目录 make install PREFIX=$REDIS_HOME # 执行安装,指定安装位置为redis解压目录 # 配置r
阅读全文
posted @ 2020-10-12 17:07 PEAR2020
阅读(121)
评论(0)
推荐(0)
上一页
1
···
18
19
20
21
22
23
24
25
26
···
30
下一页
公告