大葱拌豆腐 - 博客园

2018年10月26日

摘要：流失预测是个重要的业务，通过预测哪些客户可能取消对服务的订阅来最大限度地减少客户流失。虽然最初在电信行业使用，但它已经成为银行，互联网服务提供商，保险公司和其他垂直行业的通用业务。预测过程是大规模数据的驱动，并且经常结合使用先进的机器学习技术。在本篇文章中，我们将看到通常使用的哪些类型客户数据，对阅读全文

posted @ 2018-10-26 21:50 大葱拌豆腐阅读(1366) 评论(0) 推荐(0)

2018年10月25日

Spark partitionBy

摘要： partitionBy 重新分区， repartition默认采用HashPartitioner分区，自己设计合理的分区方法(比如数量比较大的key 加个随机数随机分到更多的分区，这样处理数据倾斜更彻底一些) 这里的分区方法可以选择，默认的分区就是HashPartition分区，注意如果多次使阅读全文

posted @ 2018-10-25 23:57 大葱拌豆腐阅读(5538) 评论(0) 推荐(0)

Spark中repartition和partitionBy的区别

摘要： repartition 和 partitionBy 都是对数据进行重新分区，默认都是使用 HashPartitioner，区别在于partitionBy 只能用于 PairRDD，但是当它们同时都用于 PairRDD时，结果却不一样：不难发现，其实 partitionBy 的结果才是我们所预期的，阅读全文

posted @ 2018-10-25 23:21 大葱拌豆腐阅读(10144) 评论(0) 推荐(0)

2018年10月21日

Spark快速获得CrossValidator的最佳模型参数

摘要： Spark提供了便利的Pipeline模型，可以轻松的创建自己的学习模型。但是大部分模型都是需要提供参数的，如果不提供就是默认参数，那么怎么选择参数就是一个比较常见的问题。Spark提供在org.apache.spark.ml.tuning包下提供了模型选择器，可以替换参数然后比较模型输出。目前阅读全文

posted @ 2018-10-21 23:07 大葱拌豆腐阅读(2414) 评论(0) 推荐(0)

Spark MLlib之水塘抽样算法（Reservoir Sampling）

摘要： 1.理解问题定义可以简化如下：在不知道文件总行数的情况下，如何从文件中随机的抽取一行？首先想到的是我们做过类似的题目吗?当然，在知道文件行数的情况下，我们可以很容易的用C运行库的rand函数随机的获得一个行数，从而随机的取出一行，但是，当前的情况是不知道行数，这样如何求呢？我们需要一个概念来帮助阅读全文

posted @ 2018-10-21 15:25 大葱拌豆腐阅读(1282) 评论(0) 推荐(0)

机器学习-加权采样算法简介

摘要：场景用户画像的构造中，想象一个场景：你经过辛辛苦苦抓数据，清洗数据，收集用户行为，目的就是给用户计算兴趣标签。这时候你可能会遇到一个两难的问题：如果给用户计算出兴趣标签的权重了，那应该保留多少标签呢？保留太多的话，每次召回候选集时，计算复杂度可不低，只保留少部分吧，那真是手心手背都是肉，生怕丢弃的阅读全文

posted @ 2018-10-21 15:17 大葱拌豆腐阅读(1519) 评论(0) 推荐(0)

基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘(转)

摘要：转载自：https://blog.csdn.net/u011239443/article/details/53735609 阅读全文

posted @ 2018-10-21 14:47 大葱拌豆腐阅读(643) 评论(0) 推荐(0)

2018年10月19日

Spark SQL 函数全集

摘要： org.apache.spark.sql.functions是一个Object，提供了约两百多个函数。大部分函数与Hive的差不多。除UDF函数，均可在spark-sql中直接使用。经过import org.apache.spark.sql.functions._ ，也可以用于Datafram 阅读全文

posted @ 2018-10-19 21:10 大葱拌豆腐阅读(13637) 评论(0) 推荐(0)

Spark SQL内置函数

摘要： Spark SQL内置函数官网API：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24 平常在使用mysql的时候，我们在写SQL的时候会使用到MySQL为我们提供的一阅读全文

posted @ 2018-10-19 20:49 大葱拌豆腐阅读(7156) 评论(0) 推荐(0)

2018年10月18日

Spark DataFrame列的合并与拆分

摘要：版本说明：Spark-2.3.0 使用Spark SQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。 1 DataFrame列数据的合并例如：我们有如下数据，想要将三列数据合并为一列，并阅读全文

posted @ 2018-10-18 23:38 大葱拌豆腐阅读(14203) 评论(0) 推荐(0)

公告