代码改变世界

随笔分类 - 1.6.├─ 大数据

数据分析常见数学公式(更新中...)

2016-08-10 18:25 by 猎手家园, 6244 阅读, 收藏, 编辑
摘要: 1、方差:就是和中心偏离的程度!用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差。标准差是方差平方根。 公式: 举例:比如1.2.3.4.5 这五个数的平均数是3 方差就是: 即:1/5[(1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)²]=2 2、 阅读全文

数学公式基础知识(更新中...)

2016-08-10 18:18 by 猎手家园, 510 阅读, 收藏, 编辑
摘要: 一、概率 1、定义: 对于古典试验中的事件A,它的概率定义为:P(A)=m/n,其中n表示该试验中所有可能出现的基本结果的总数目。m表示事件A包含的试验基本结果数。 由于频率nA/n总是介于0和1之间,从概率的统计定义可知,对任意事件A,皆有0≤P(A)≤1,P(Ω)=1,P(Φ)=0。其中Ω、Φ分 阅读全文

数据分析与挖掘 - R语言:多元线性回归

2016-05-25 16:47 by 猎手家园, 780 阅读, 收藏, 编辑
摘要: 一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 线性回归主要用来做预测模型。 1、准备数据集: 2、确定线性回归函数:Y = β0 + β1X + ε 其中β0 + β1X 表示Y随X的变化而线性变化的部分;ε是随机误差,是一切不 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例三)

2016-05-25 14:04 by 猎手家园, 7358 阅读, 收藏, 编辑
摘要: 案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数。 代码如下: 预测结果为: 和原数据一样! *********************************这里是分割线************************************** 我们再拿这个方法来预测 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例二)

2016-05-25 13:43 by 猎手家园, 3925 阅读, 收藏, 编辑
摘要: 接着案例一,我们再使用另一种方法实例一个案例 直接上代码: 预测结果为: 可见该苹果的口味为:bad *********************************************这里是分割线************************************************ 阅读全文

数据分析与挖掘 - R语言:KNN算法

2016-05-25 11:50 by 猎手家园, 3690 阅读, 收藏, 编辑
摘要: 一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理。然后,对未知分类的数据集中的每个样本点依次执行以下操作:1、计算已知类别数据集中的点与当前点(未知分类)的距离。2 阅读全文

极限存储之拉链表

2016-05-17 15:23 by 猎手家园, 812 阅读, 收藏, 编辑
摘要: 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间 阅读全文

ODS与DW之间的关系

2016-05-13 09:22 by 猎手家园, 7032 阅读, 收藏, 编辑
摘要: 1、什么是数据仓库? 数据仓库是面向主题的、集成的、相对稳定的、反应历史变化的数据集合,主要用于决策支持和信息的全局共享。 时效:T+1 2、什么是ODS? ODS全称为Operational Data Store,即操作型数据存储,是“面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合 阅读全文

数据分析与挖掘 - R语言:K-means聚类算法

2016-05-02 22:07 by 猎手家园, 9877 阅读, 收藏, 编辑
摘要: 一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 1、分析题目--有一个用户点击数据样本(husercollect)--按用户访问的时间(时)统计--要求:分析时间和点击次数的聚类情况2、数据准备 3、评估K值 评估结果: 由上图可 阅读全文

电商大数据学习笔记:用户画像

2016-05-02 21:50 by 猎手家园, 937 阅读, 收藏, 编辑
摘要: 1、用户画像:用户信息标签化。 2、用户画像可以做什么? ——内容正在整理中 3、show命令用法 show tables 显示所有表 例:show table like ‘…_pre_food’; show partitions 显示所有分区 例:show partitions fdm_prd_f 阅读全文

电商大数据学习笔记:实战

2016-05-02 17:17 by 猎手家园, 525 阅读, 收藏, 编辑
摘要: 1、YARN:将资源管理和作业调度/监控分成两个独立的进程。 包含两个组件:ResourceManager和ApplicationMaster 2、YARN的特性: 1)可扩展性;2)高可用性(HA);3)兼容性(1.0版本的作业也可以执行);4)提高集群利用率; 5)支持MapReduce编程范式 阅读全文

电商大数据学习笔记:理论

2016-05-02 16:16 by 猎手家园, 781 阅读, 收藏, 编辑
摘要: 1、大数据部门:数据中心、数据平台、数据部…… 2、每个部门都有:架构人员、数据分析人员、开发人员、运营人员…… 3、团队:数据仓库组、BI组、架构组、数据专家组…… 4、团队分的更细:需求组、推荐组、情报组、挖掘组、数据组、营销组…… 5、大数据有哪些重要的项目: 1)数据仓库建设; 2)经营分析 阅读全文