摘要: 目录: 一、概念 二、目的 三、用法和具体应用场景 四、如何构建 一、概念 用户画像是根据用户社会属性、生活习惯和消费行为等信息抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析得来的高度精炼的特征标识。 User Persona和User Prof 阅读全文
posted @ 2020-01-10 00:09 长安醉灯赋 阅读(276) 评论(0) 推荐(0)
摘要: Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。 项目地址: http://sqoop.apache.org/ 目前为止,已经演化出了2个版 阅读全文
posted @ 2020-01-10 00:04 长安醉灯赋 阅读(1599) 评论(0) 推荐(0)
摘要: 1 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 2 数据仓库的特点 阅读全文
posted @ 2020-01-10 00:01 长安醉灯赋 阅读(151) 评论(0) 推荐(0)
摘要: 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其 阅读全文
posted @ 2020-01-09 23:59 长安醉灯赋 阅读(414) 评论(0) 推荐(0)
摘要: 引言 你是否遇到过两个(多个)系统间需要通过定时任务来同步某些数据?你是否在为异构系统的不同进程间相互调用、通讯的问题而苦恼、挣扎?如果是,那么恭喜你,消息服务让你可以很轻松地解决这些问题。消息服务擅长于解决多系统、异构系统间的数据交换(消息通知/通讯)问题,你也可以把它用于系统间服务的相互调用(R 阅读全文
posted @ 2020-01-09 23:50 长安醉灯赋 阅读(117) 评论(0) 推荐(0)