随笔分类 -  大数据

摘要:注:本文只说和Java不同的地方。 总结自: 1. "Scala详细教程" 2. "Scala教程" scala基础语法 1. Scala 与 Java 的最大区别是:Scala 语句末尾的分号 “;” 是可选的。 2. Scala程序从main()方法开始处理,这是每一个Scala程序的强制程序入 阅读全文
posted @ 2019-12-08 20:31 做个有梦想的咸鱼 阅读(457) 评论(0) 推荐(0)
摘要:参考资料: "scala中常用但其他语言不常见的符号含义" "Scala学习六:Scala中的特殊字符" = (匿名函数) 参考文档: "scala = 用法 匿名函数" 匿名函数,在Spark中函数也是一个对象可以赋值给一个变量。 Spark的匿名函数定义格式: 所以, 的作用就是创建一个匿名函数 阅读全文
posted @ 2018-01-11 10:36 做个有梦想的咸鱼 阅读(4433) 评论(0) 推荐(2)
摘要:需求 交易系统,财务要求维护每个用户首个交易完成的订单数据(首单表,可取每个用户交易完成时间最老的订单数据)。举例: 简写版的表结构: 表数据: 则 财务希望汇总记录如下: |uid|order_id|service_completion_time| | | | | | 2 | 44 | 2017 阅读全文
posted @ 2017-11-30 20:48 做个有梦想的咸鱼 阅读(15241) 评论(0) 推荐(1)
摘要:1. 原文地址: "MapReduce的架构组成" MapReduce基本架构 分而治之,并行计算 一句话 —— 整体主从架构,map加reduce;map、split入磁盘,数据对分partition;shuffle、sort、key value,一个reduce解析一个partition。 一堆 阅读全文
posted @ 2017-10-23 09:48 做个有梦想的咸鱼 阅读(2161) 评论(0) 推荐(0)
摘要:1. MapReduce基本编程模型和框架 1.1 MapReduce抽象模型 大数据计算的核心思想是:分而治之。如下图所示。把大量的数据划分开来,分配给各个子任务来完成。再将结果合并到一起输出。注:如果数据的耦合性很高,不能分离,那么这种并行计算就不合适了。 图1: MapReduce抽象模型 1 阅读全文
posted @ 2017-10-23 09:43 做个有梦想的咸鱼 阅读(3983) 评论(0) 推荐(0)
摘要:转载自:《我是如何向老婆解释MapReduce的?》 昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapRed 阅读全文
posted @ 2017-10-23 09:41 做个有梦想的咸鱼 阅读(376) 评论(0) 推荐(0)
摘要:原文地址: "如何简单解释 MapReduce 算法" 在Hackbright做导师期间,我被要求向技术背景有限的学生解释MapReduce算法,于是我想出了一个有趣的例子,用以阐释它是如何工作的。 例子 你想数出一摞扑克牌中有多少黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapRedu 阅读全文
posted @ 2017-10-23 09:40 做个有梦想的咸鱼 阅读(1306) 评论(0) 推荐(1)
摘要:1. 参看原文 "【Hadoop】HDFS的运行原理" 2. 参看原文 " 还不懂HDFS的工作原理?快来扫扫盲" 简介 HDFS(Hadoop Distributed File System) Hadoop分布式文件系统。是根据google发表的论文实现的。论文为GFS( Google File 阅读全文
posted @ 2017-10-23 09:39 做个有梦想的咸鱼 阅读(346) 评论(0) 推荐(0)
摘要:HDFS命令基本格式 1. hadoop fs cmd args 2. hdfs dfs cmd args cat 将路径指定文件的内容输出到stdout。 示例 + + ls命令 列出 hdfs文件系统根目录下的目录和文件 列出hdfs文件系统所有的目录和文件 列出hdfs文件系统在 /opt/l 阅读全文
posted @ 2017-10-23 09:39 做个有梦想的咸鱼 阅读(1270) 评论(0) 推荐(0)
摘要:centos 多台机器免密登录 "hadoop学习笔记(五)——全分布模式下SSH免密码登陆的实现" 参考安装教程 "Hadoop 2.7.4 集群快速搭建" 启动hadoop 关闭 hadoop 无法访问50070端口 1. 本机telnet 查看是否能连通50070端口。 2. 开放端口: /s 阅读全文
posted @ 2017-10-23 09:38 做个有梦想的咸鱼 阅读(244) 评论(0) 推荐(0)
摘要:1. 参见马士兵老师的博文: "map_reduce" 环境配置 Windows本地解压Hadoop压缩包,然后像配置JDK环境变量一样在系统环境变量里配置HADOOP_HOME和path环境变量。注意:hadoop安装目录尽量不要包含空格或者中文字符。 形如: 添加windows环境下依赖的库文件 阅读全文
posted @ 2017-10-20 12:22 做个有梦想的咸鱼 阅读(3089) 评论(0) 推荐(0)
摘要:Hive简介 Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并使用HQL作为查询接口、HDFS作为存储底层、MapReduce作为执行层,将HQL语句转换成MapReduce任务进行运行,从而达到数据统计、数据分析的功能。 Hive有自身的元数据结构描述,可 阅读全文
posted @ 2017-08-08 10:12 做个有梦想的咸鱼 阅读(413) 评论(0) 推荐(0)
摘要:Hive SQL 常用日期 原文地址: "Hive SQL常用日期函数" Hive SQL 常用日期 注意: MM DD MO TU等要大写 已知日期|要求日期|语句|结果 | | | | 本周任意一天 | 本周一 | select date_sub(next_day('2016 11 29','M 阅读全文
posted @ 2017-07-25 09:06 做个有梦想的咸鱼 阅读(3144) 评论(0) 推荐(0)