随笔分类 -  大数据开发

推荐系统(Recommendation System)
摘要:1. 什么是推荐系统 推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。 随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自 阅读全文

posted @ 2021-03-26 16:52 农夫三拳有點疼 阅读(693) 评论(0) 推荐(0) 编辑

Zookeeper
摘要:Zookeeper 1 Zookeeper概念 Zookeeper是什么 是一个基于观察者设计模式的分布式服务管理框架,它负责和管理需要关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。 Zookee 阅读全文

posted @ 2020-03-17 13:49 农夫三拳有點疼 阅读(66) 评论(0) 推荐(0) 编辑

MapReduce
摘要:MapReduce MapReduce是什么? MapReduce源自于Google发表于2004年12月的MapReduce论文,是面向大数据并行处理的计算模型、框架和平台,而Hadoop MapReduce是Google MapReduce克隆版。 如果没有MapReduce! 那么在分布式计算 阅读全文

posted @ 2020-03-17 13:47 农夫三拳有點疼 阅读(48) 评论(0) 推荐(0) 编辑

HDFS
摘要:HDFS HDFS是什么? Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HD 阅读全文

posted @ 2020-03-17 13:47 农夫三拳有點疼 阅读(35) 评论(0) 推荐(0) 编辑

YARN
摘要:YARN YARN是什么? YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 如果没有YARN! 无法管理集群资源分配问题。 无法合理的给程序分配合理的资源。 不方便监控 阅读全文

posted @ 2020-03-17 13:25 农夫三拳有點疼 阅读(714) 评论(0) 推荐(0) 编辑

ElasticSearch
摘要:ElasticSearch ElasticSearch是什么 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种 阅读全文

posted @ 2020-03-17 13:13 农夫三拳有點疼 阅读(52) 评论(0) 推荐(0) 编辑

数据埋点
摘要:本文将从埋点技术、数据埋点方式和如何做好数据埋点三方面来阐述,帮助理解数据埋点。 一 埋点技术 1.1 代码埋点 所谓的代码埋点就是在你需要统计数据的地方植入N行代码,统计用户的关键行为。比如你想统计首页某个banner的点击量,上报的数据可以采用KEY-VALUE形式,我们定义 KEY为「CLIC 阅读全文

posted @ 2019-10-08 11:01 农夫三拳有點疼 阅读(188) 评论(0) 推荐(0) 编辑

用户画像
摘要:一、用户画像的应用 用户画像是目前数据挖掘当中比较容易入门的一个领域。它比较热门的应用便是推荐,最近常说的千人千面的核心基础便是构建人群的画像,通过人群的不同画像来做到个性化推荐。另外广告也是非常需要用户画像的支持,通过个性化的广告推送,也可以提高广告的点击率,带来更高的广告收入。其次用户画像很多时 阅读全文

posted @ 2019-09-29 11:05 农夫三拳有點疼 阅读(192) 评论(0) 推荐(0) 编辑

ElasticSearch集群安装部署
摘要:0 集群搭建 1.安装unzip yum install unzip2.所有集群节点创建新用户 useradd el3.所有集群节点给el用户设置密码passwd el方便记忆使用的rootroot4.所有集群节点创建安装目录和赋予使用权限--》并转换用户 mkdir -p /opt/es ll / 阅读全文

posted @ 2019-09-24 10:10 农夫三拳有點疼 阅读(293) 评论(0) 推荐(0) 编辑

音乐推荐系统
摘要:音乐频道推荐业务,支持各个产品业务和策略。这里先使用CB+CF+LR实现推荐部分,下面具体展开: 一、推荐系统流程图 CB,CF算法在召回阶段使用,推荐出来的item是粗排的,利用LR算法,可以将CB,CF召回来的item进行精排,然后选择分数最高,给用户推荐出来。后续我们可以采用矩阵分解、聚类、深 阅读全文

posted @ 2019-09-16 08:57 农夫三拳有點疼 阅读(1631) 评论(0) 推荐(0) 编辑

搜狐新闻推荐算法原理(转)
摘要:1.新闻推荐算法架构 新闻算法的核心主要分为两个阶段:召回阶段(retrieval)和排序阶段(ranking)。之所以分为两个阶段,主要是从性能考虑。召回阶段面临的是百万级别甚至千万级别的文章,单篇文章的性能开销必须要小;而排序阶段的算法则非常消耗资源,不可能对所有文章都算一遍,也没有必要这样做, 阅读全文

posted @ 2019-08-12 11:10 农夫三拳有點疼 阅读(755) 评论(0) 推荐(0) 编辑

ALS的Spark实现
摘要:1.ALS算法流程: 初始化数据集和Spark环境 >切分测试机和检验集 >训练ALS模型 >验证结果 >检验满足结果 >直接推荐商品,否则继续训练ALS模型 2.数据集的含义 Rating是固定的ALS输入格式,要求是一个元组类型的数据,其中数值分别是如下的[Int,Int,Double],在建立 阅读全文

posted @ 2019-08-12 10:41 农夫三拳有點疼 阅读(125) 评论(0) 推荐(0) 编辑

数据倾斜(记录)
摘要:一、数据倾斜介绍与定位 二、解决方法一:聚合数据源 三、解决方法二:提高shuffle操作reduce并行度 四、解决方法之三:随机key实现双重聚合 五、解决方法之四:将reduce join 转换为map join 六、解决方法之五:sample采样倾斜key进行两次join 七、解决方法之六: 阅读全文

posted @ 2019-08-05 17:13 农夫三拳有點疼 阅读(370) 评论(0) 推荐(0) 编辑

0 Spark调优
摘要:1. 开发调优 - 避免创建重复的RDD - 尽可能复用同一个RDD - 对多次使用的RDD进行持久化 - 尽量避免使用shuffle类算子 - 使用map-side预聚合的shuffle操作(在每个节点本地对相同的key进行一次聚合操作,map-side预聚合之后,每个节点本地就只会有一条相同的k 阅读全文

posted @ 2019-08-05 17:04 农夫三拳有點疼 阅读(156) 评论(0) 推荐(0) 编辑

推荐系统--入门篇
摘要:推荐系统领域,常见两种推荐任务,一种是评分预测,一种是Top-N原则 评分预测: 以下是两个用户对喜好的打分情况 由上图可得:U1和U2都喜欢羽毛球,并且喜爱的程度不低,那么我们可以推出U1和U2具有相同的爱好,因此我们就可以将足球推荐给U2,这就是评分预测大致的过程。 Top-N原则: 以下是三个 阅读全文

posted @ 2019-08-05 13:38 农夫三拳有點疼 阅读(280) 评论(0) 推荐(0) 编辑

推荐系统冷启动问题解决方案
摘要:一、什么是冷启动? 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动的问题。 二、冷启动的分类 冷启动问题主要分为3类: 用户冷启动,即如何给新用户做个性化推荐 物品冷启动,即如何将新的物品推荐给可能对它感兴趣的用户 系统冷启动,即如何在一个新 阅读全文

posted @ 2019-07-29 17:10 农夫三拳有點疼 阅读(572) 评论(0) 推荐(0) 编辑

0 大数据算法题
摘要:例1: 海量日志数据,提取出某日访问百度次数最多的那个IP (文件总量多大 -> 能一次载入内存吗 -> 怎么将文件化大为小,一般可以采取hash -> 然后怎么归并) 例2: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录( 阅读全文

posted @ 2019-07-24 14:38 农夫三拳有點疼 阅读(239) 评论(0) 推荐(0) 编辑

0 Scala
摘要:0 Scala简介 Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。 1 Scala环境 1.1 语言介绍 他已经出生15年了,就像明星一样,谁都不可能一开始就人气爆棚粉丝无数,得慢慢混。 据说这家伙已经威胁到了 阅读全文

posted @ 2019-07-22 13:00 农夫三拳有點疼 阅读(263) 评论(0) 推荐(0) 编辑

推荐系统架构(转)
摘要:一、推荐系统目标和推荐方式 推荐系统目标主要包括: 用户满意性:首当其冲的,推荐系统主要就是为了满足用户的需求,因此准确率是评判一个推荐系统好坏的最关键指标。 多样性:虽然推荐系统最主要还是满足用户的兴趣,但是也要兼顾内容的多样性,对于权重不同的兴趣都要做到兼顾。 新颖性:用户看到的内容是那些他们之 阅读全文

posted @ 2019-07-22 11:22 农夫三拳有點疼 阅读(314) 评论(0) 推荐(0) 编辑

导航