代码改变世界

电商大数据学习笔记:用户画像

2016-05-02 21:50 by 猎手家园, 1048 阅读, 0 推荐, 收藏,
摘要:1、用户画像:用户信息标签化。 2、用户画像可以做什么? ——内容正在整理中 3、show命令用法 show tables 显示所有表 例:show table like ‘…_pre_food’; show partitions 显示所有分区 例:show partitions fdm_prd_f 阅读全文

电商大数据学习笔记:实战

2016-05-02 17:17 by 猎手家园, 598 阅读, 0 推荐, 收藏,
摘要:1、YARN:将资源管理和作业调度/监控分成两个独立的进程。 包含两个组件:ResourceManager和ApplicationMaster 2、YARN的特性: 1)可扩展性;2)高可用性(HA);3)兼容性(1.0版本的作业也可以执行);4)提高集群利用率; 5)支持MapReduce编程范式 阅读全文

电商大数据学习笔记:理论

2016-05-02 16:16 by 猎手家园, 854 阅读, 0 推荐, 收藏,
摘要:1、大数据部门:数据中心、数据平台、数据部…… 2、每个部门都有:架构人员、数据分析人员、开发人员、运营人员…… 3、团队:数据仓库组、BI组、架构组、数据专家组…… 4、团队分的更细:需求组、推荐组、情报组、挖掘组、数据组、营销组…… 5、大数据有哪些重要的项目: 1)数据仓库建设; 2)经营分析 阅读全文

R语言学习笔记:基础知识

2016-05-02 16:00 by 猎手家园, 2311 阅读, 0 推荐, 收藏,
摘要:1、数据分析金字塔 2、【文件】-【改变工作目录】 3、【程序包】-【设定CRAN镜像】 【程序包】-【安装程序包】 4、向量 c() 例:x=c(2,5,8,3,5,9) 例:x=c(1:100) 表示把1 - 100的所有数字都给x这个变量 5、查看x的类型:>mode(x) 6、查看x的长度: 阅读全文

Hive学习笔记:基础语法

2016-05-02 15:44 by 猎手家园, 949 阅读, 0 推荐, 收藏,
摘要:Hive基础语法 1、创建表 – 用户表 hive目前支持三种方式: 1)就是最普通的textfile,数据不做压缩,磁盘开销大,解析开销也大 2)SquenceFIle,hadoop api提供的一种二进制API方式,其具有使用方便、可分割、可压缩等特点。 3)rcfile行列存储结合的方式,它会 阅读全文

Linux学习笔记:常用100条命令(三)

2016-05-02 15:04 by 猎手家园, 403 阅读, 0 推荐, 收藏,
摘要:linux常用命令 阅读全文

Linux学习笔记:常用100条命令(二)

2016-05-02 15:02 by 猎手家园, 542 阅读, 0 推荐, 收藏,
摘要:linux常用命令 阅读全文

Linux学习笔记:常用100条命令(一)

2016-05-02 15:00 by 猎手家园, 2176 阅读, 0 推荐, 收藏,
摘要:linux常用命令 阅读全文

数字编码及挂钩记忆

2016-05-02 14:09 by 猎手家园, 520 阅读, 0 推荐, 收藏,
摘要:这是一个很神奇的记忆 阅读全文

Hive数据倾斜

2016-05-02 14:06 by 猎手家园, 484 阅读, 0 推荐, 收藏,
摘要:倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。 解决思路: Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage 阅读全文