上一页 1 ··· 47 48 49 50 51 52 53 54 55 ··· 234 下一页

2021年1月29日

【spark】常用转换操作:keys 、values和mapValues

摘要: 1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke 阅读全文

posted @ 2021-01-29 18:46 ExplorerMan 阅读(220) 评论(0) 推荐(0)

Spark 持久化(cache和persist的区别)

摘要: 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算 阅读全文

posted @ 2021-01-29 18:30 ExplorerMan 阅读(921) 评论(0) 推荐(0)

Spark MLlib中KMeans聚类算法的解析和应用

摘要: 聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。 核心思想可以理解为,在给定的数据集中(数据集中的每个元素有可被观察的n个属性),使用聚类算法将数据集划分为k个子集,并且要求每个子集内部的元素之间的差异度尽可能低,而不同子集元素的 阅读全文

posted @ 2021-01-29 12:56 ExplorerMan 阅读(334) 评论(0) 推荐(0)

解析SparkStreaming和Kafka集成的两种方式

摘要: spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。 针对不同的spark、kafka版本 阅读全文

posted @ 2021-01-29 12:54 ExplorerMan 阅读(226) 评论(0) 推荐(0)

重要 | Spark分区并行度决定机制

摘要: 最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S 阅读全文

posted @ 2021-01-29 12:00 ExplorerMan 阅读(538) 评论(0) 推荐(0)

Spark/Scala实现推荐系统中的相似度算法(欧几里得距离、皮尔逊相关系数、余弦相似度:附实现代码)

摘要: 在推荐系统中,协同过滤算法是应用较多的,具体又主要划分为基于用户和基于物品的协同过滤算法,核心点就是基于"一个人"或"一件物品",根据这个人或物品所具有的属性,比如对于人就是性别、年龄、工作、收入、喜好等,找出与这个人或物品相似的人或物,当然实际处理中参考的因子会复杂的多。 本篇文章不介绍相关数学概 阅读全文

posted @ 2021-01-29 11:59 ExplorerMan 阅读(376) 评论(0) 推荐(0)

九种常见的数据分析模型

摘要: 1. 漏斗分析模型 漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。 运营人员可以通过观察不同属性的用户群体(如新注册用户与老客户、不同渠道来源的客户)各环节转化率,各流程步骤转化率的差异对比,了解转化率最高的用户群体,分析漏斗合理性,并针 阅读全文

posted @ 2021-01-29 11:58 ExplorerMan 阅读(817) 评论(0) 推荐(0)

Spark推荐系统实践

摘要: 推荐系统是根据用户的行为、兴趣等特征,将用户感兴趣的信息、产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别: 根据目标用户的不同,可划分为基于大众行为的推荐引擎和个性化推荐引擎 根据数据之间的相关性,可划分为基于人口统计学的推荐和基于内 阅读全文

posted @ 2021-01-29 11:57 ExplorerMan 阅读(387) 评论(0) 推荐(0)

2021年1月28日

RabbitMQ之消息确认机制(事务+Confirm)

摘要: 概述 在使用RabbitMQ的时候,我们可以通过消息持久化操作来解决因为服务器的异常奔溃导致的消息丢失,除此之外我们还会遇到一个问题,当消息的发布者在将消息发送出去之后,消息到底有没有正确到达broker代理服务器呢?如果不进行特殊配置的话,默认情况下发布操作是不会返回任何信息给生产者的,也就是默认 阅读全文

posted @ 2021-01-28 15:43 ExplorerMan 阅读(979) 评论(0) 推荐(0)

2021年1月27日

【Python】说说字典和散列表,散列冲突的解决原理

摘要: 散列表 Python 用散列表来实现 dict。散列表其实是一个稀疏数组(总是有空白元素的数组称为稀疏数组)。在一般书中,散列表里的单元通常叫做表元(bucket)。在 dict 的散列表当中,每个键值对都占用一个表元,每个表元都有两个部分,一个是对键的引用,一个是对值的引用。因为每个表元的大小一致 阅读全文

posted @ 2021-01-27 17:22 ExplorerMan 阅读(182) 评论(0) 推荐(0)

上一页 1 ··· 47 48 49 50 51 52 53 54 55 ··· 234 下一页

导航