摘要:
Spark应用_PageView_UserView_HotChannel 一、PV <!--more--> 对某一个页面的访问量,在页面中进行刷新一次就是一次pv PV {p1, (u1,u2,u3,u1,u2,u4…)} 对同一个页面的浏览量进行统计,用户可以重复 1 2 3 4 5 6 7 8
阅读全文
posted @ 2017-03-04 20:31
日月的弯刀
阅读(536)
推荐(0)
摘要:
Cloudera Manager安装_搭建CDH集群 cpu <!--more--> 内存16G 内存12G 内存8G 默认单核单线 CDH1_node9 Server || Agent 10G 6G 5G CDH2_node10 Agent 2G 1-1.5G 1G CDH3_node11 Age
阅读全文
posted @ 2017-03-03 09:08
日月的弯刀
阅读(43239)
推荐(2)
摘要:
hbase性能调优案例 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 设计思路 person表
阅读全文
posted @ 2017-03-02 23:45
日月的弯刀
阅读(1568)
推荐(0)
摘要:
ItemCF_基于物品的协同过滤 1. 概念 <!--more--> 2. 原理 如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路 数据集: 第一步:构建物品的同现矩阵 第二步:构建用户的得分矩阵 第三步:同现矩阵*评分矩阵 第四步:拿到最终结果,排序,得到给用户的
阅读全文
posted @ 2017-03-02 23:34
日月的弯刀
阅读(3234)
推荐(1)
摘要:
TF-IDF 1. 概念 2. 原理 3. java代码实现思路 数据集: 三个MapReduce 第一个MapReduce:(利用ik分词器,将一篇博文,也就是一条记录中的content进行词的拆分) 第一个MapReduce最终运行的结果: 1. 得到数据集中微博的总数; 2. 得到每个词在当前
阅读全文
posted @ 2017-03-02 23:33
日月的弯刀
阅读(1400)
推荐(0)
摘要:
PageRank 1. 概念 1. 概念 2. 原理 3. java代码实现思路 1、定义收敛标准 每次算出新的pr-oldpr=差值 ,所有页面的差值累加 ,除以pagecount,得到avg差值 ,如果。小于0.01 2、计算总页面数,并且算出每个页面的初始pr值=1/pagecount 3、
阅读全文
posted @ 2017-03-02 23:32
日月的弯刀
阅读(420)
推荐(0)
摘要:
Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架,使数据计算更快(高效运行,快速开发) <!--more--> 1.2Spark比Hadoop快的两个原因 第一,内存计算 第二,DAG(有向无环图) 2.Spark运行模式(四种 )
阅读全文
posted @ 2017-03-02 23:28
日月的弯刀
阅读(2948)
推荐(0)
摘要:
HQL学习 1.hive的数据类型 2.hive_DDL 2.1创建、删除、修改、使用数据库 2.hive_DDL 2.1创建、删除、修改、使用数据库 Default数据库,默认的,优先级相对于其他数据库是最高的 2.2重点:创建表_内部表_外部表 hive通过sql来分析hdfs上结构化的数据,将
阅读全文
posted @ 2017-03-02 23:12
日月的弯刀
阅读(657)
推荐(0)
摘要:
Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh,注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKE
阅读全文
posted @ 2017-03-02 23:08
日月的弯刀
阅读(1659)
推荐(0)
摘要:
Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh <!--more--> 2.Spark on YARN--不需要启动Spark集群,因为已经在spark的配置文件中配置了hadoop的目录 2.Spark o
阅读全文
posted @ 2017-03-02 23:06
日月的弯刀
阅读(897)
推荐(0)