摘要: Spark提供了便利的Pipeline模型,可以轻松的创建自己的学习模型。 但是大部分模型都是需要提供参数的,如果不提供就是默认参数,那么怎么选择参数就是一个比较常见的问题。Spark提供在org.apache.spark.ml.tuning包下提供了模型选择器,可以替换参数然后比较模型输出。 目前 阅读全文
posted @ 2018-10-21 23:07 大葱拌豆腐 阅读(2411) 评论(0) 推荐(0)
摘要: 1.理解 问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行? 首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获得一个行数,从而随机的取出一行,但是,当前的情况是不知道行数,这样如何求呢?我们需要一个概念来帮助 阅读全文
posted @ 2018-10-21 15:25 大葱拌豆腐 阅读(1275) 评论(0) 推荐(0)
摘要: 场景用户画像的构造中,想象一个场景:你经过辛辛苦苦抓数据,清洗数据,收集用户行为,目的就是给用户计算兴趣标签。 这时候你可能会遇到一个两难的问题:如果给用户计算出兴趣标签的权重了,那应该保留多少标签呢?保留太多的话,每次召回候选集时,计算复杂度可不低,只保留少部分吧,那真是手心手背都是肉,生怕丢弃的 阅读全文
posted @ 2018-10-21 15:17 大葱拌豆腐 阅读(1508) 评论(0) 推荐(0)
摘要: 转载自:https://blog.csdn.net/u011239443/article/details/53735609 阅读全文
posted @ 2018-10-21 14:47 大葱拌豆腐 阅读(641) 评论(0) 推荐(0)