上一页 1 2 3 4 5 6 7 8 ··· 24 下一页
摘要: 一、user_visit_action(Hive表) 1.1 表的结构 date:日期,代表这个用户点击行为是在哪一天发生的user_id:代表这个点击行为是哪一个用户执行的session_id :唯一标识了某个用户的一个访问sessionpage_id :点击了某些商品/品类,也可能是搜索了某个关 阅读全文
posted @ 2018-05-21 09:29 扎心了,老铁 阅读(4723) 评论(0) 推荐(0) 编辑
摘要: 一、对用户访问session进行分析 1、可以根据使用者指定的某些条件,筛选出指定的一些用户(有特定年龄、职业、城市); 2、对这些用户在指定日期范围内发起的session,进行聚合统计,比如,统计出访问时长在0~3s的session占总session数量的比例; 3、按时间比例,比如一天有24个小 阅读全文
posted @ 2018-05-21 09:27 扎心了,老铁 阅读(6597) 评论(3) 推荐(2) 编辑
摘要: 阅读全文
posted @ 2018-05-21 09:26 扎心了,老铁 阅读(6311) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-05-21 09:24 扎心了,老铁 阅读(6120) 评论(0) 推荐(6) 编辑
摘要: Zookeeper集群搭建 http://www.cnblogs.com/qingyunzong/p/8619184.html Hadoop集群搭建 http://www.cnblogs.com/qingyunzong/p/8634335.html http://www.cnblogs.com/qi 阅读全文
posted @ 2018-05-21 09:23 扎心了,老铁 阅读(5747) 评论(0) 推荐(1) 编辑
摘要: 一、CentOS7集群搭建 1.1 准备3台centos7的虚拟机 IP及主机名规划如下: 192.168.123.110 spark1192.168.123.111 spark2192.168.123.112 spark3 1.2 修改IP地址 1.3 修改主机映射 1.4 修改主机名 三台机器分 阅读全文
posted @ 2018-05-21 09:21 扎心了,老铁 阅读(5759) 评论(0) 推荐(0) 编辑
摘要: 一、项目概述 本项目主要用于互联网电商企业中,使用Spark技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。用统计分析出来的数据,辅助公司中的PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设 阅读全文
posted @ 2018-05-21 09:20 扎心了,老铁 阅读(12465) 评论(0) 推荐(1) 编辑
摘要: 一、引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 二、图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 2 阅读全文
posted @ 2018-05-16 19:37 扎心了,老铁 阅读(6002) 评论(0) 推荐(0) 编辑
摘要: 一、图 1.1 基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。 这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面 常用的应用有:在地图应用中找到最短路径、基于与他人的相似度图, 阅读全文
posted @ 2018-05-16 19:22 扎心了,老铁 阅读(2628) 评论(1) 推荐(0) 编辑
摘要: 一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 阅读全文
posted @ 2018-05-16 18:41 扎心了,老铁 阅读(4665) 评论(2) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 24 下一页