大数据 - 随笔分类 - 做个有梦想的咸鱼

SCALA基础知识学习

摘要：注：本文只说和Java不同的地方。总结自： 1. "Scala详细教程" 2. "Scala教程" scala基础语法 1. Scala 与 Java 的最大区别是：Scala 语句末尾的分号 “;” 是可选的。 2. Scala程序从main()方法开始处理，这是每一个Scala程序的强制程序入阅读全文

posted @ 2019-12-08 20:31 做个有梦想的咸鱼阅读(459) 评论(0) 推荐(0)

scala中常用特殊符号

摘要：参考资料： "scala中常用但其他语言不常见的符号含义" "Scala学习六：Scala中的特殊字符" = （匿名函数）参考文档： "scala = 用法匿名函数" 匿名函数，在Spark中函数也是一个对象可以赋值给一个变量。 Spark的匿名函数定义格式：所以，的作用就是创建一个匿名函数阅读全文

posted @ 2018-01-11 10:36 做个有梦想的咸鱼阅读(4441) 评论(0) 推荐(2)

Hive分组取第一条记录

摘要：需求交易系统，财务要求维护每个用户首个交易完成的订单数据（首单表，可取每个用户交易完成时间最老的订单数据）。举例：简写版的表结构：表数据：则财务希望汇总记录如下： |uid|order_id|service_completion_time| | | | | | 2 | 44 | 2017 阅读全文

posted @ 2017-11-30 20:48 做个有梦想的咸鱼阅读(15247) 评论(0) 推荐(1)

MapReduce框架组成

摘要：1. 原文地址： "MapReduce的架构组成" MapReduce基本架构分而治之，并行计算一句话 —— 整体主从架构，map加reduce；map、split入磁盘，数据对分partition；shuffle、sort、key value，一个reduce解析一个partition。一堆阅读全文

posted @ 2017-10-23 09:48 做个有梦想的咸鱼阅读(2166) 评论(0) 推荐(0)

简述MapReduce计算框架原理

摘要：1. MapReduce基本编程模型和框架 1.1 MapReduce抽象模型大数据计算的核心思想是：分而治之。如下图所示。把大量的数据划分开来，分配给各个子任务来完成。再将结果合并到一起输出。注：如果数据的耦合性很高，不能分离，那么这种并行计算就不合适了。图1： MapReduce抽象模型 1 阅读全文

posted @ 2017-10-23 09:43 做个有梦想的咸鱼阅读(3990) 评论(0) 推荐(0)

我是如何向老婆解释MapReduce的？

摘要：转载自：《我是如何向老婆解释MapReduce的？》昨天，我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利，听众们都能够理解MapReduce的概念（根据他们的反馈）。我成功地向技术听众们（主要是Java程序员，一些Flex程序员和少数的测试人员）解释了MapRed 阅读全文

posted @ 2017-10-23 09:41 做个有梦想的咸鱼阅读(376) 评论(0) 推荐(0)

如何简单解释 MapReduce算法

摘要：原文地址： "如何简单解释 MapReduce 算法" 在Hackbright做导师期间，我被要求向技术背景有限的学生解释MapReduce算法，于是我想出了一个有趣的例子，用以阐释它是如何工作的。例子你想数出一摞扑克牌中有多少黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapRedu 阅读全文

posted @ 2017-10-23 09:40 做个有梦想的咸鱼阅读(1311) 评论(0) 推荐(1)

HDFS初识

摘要：1. 参看原文 "【Hadoop】HDFS的运行原理" 2. 参看原文 " 还不懂HDFS的工作原理？快来扫扫盲" 简介 HDFS(Hadoop Distributed File System) Hadoop分布式文件系统。是根据google发表的论文实现的。论文为GFS( Google File 阅读全文

posted @ 2017-10-23 09:39 做个有梦想的咸鱼阅读(353) 评论(0) 推荐(0)

FS Shell命令

摘要：HDFS命令基本格式 1. hadoop fs cmd args 2. hdfs dfs cmd args cat 将路径指定文件的内容输出到stdout。示例 + + ls命令列出 hdfs文件系统根目录下的目录和文件列出hdfs文件系统所有的目录和文件列出hdfs文件系统在 /opt/l 阅读全文

posted @ 2017-10-23 09:39 做个有梦想的咸鱼阅读(1273) 评论(0) 推荐(0)

hadoop 分布式环境安装

摘要：centos 多台机器免密登录 "hadoop学习笔记(五)——全分布模式下SSH免密码登陆的实现" 参考安装教程 "Hadoop 2.7.4 集群快速搭建" 启动hadoop 关闭 hadoop 无法访问50070端口 1. 本机telnet 查看是否能连通50070端口。 2. 开放端口： /s 阅读全文

posted @ 2017-10-23 09:38 做个有梦想的咸鱼阅读(244) 评论(0) 推荐(0)

Windows + IDEA 手动开发MapReduce程序

摘要：1. 参见马士兵老师的博文： "map_reduce" 环境配置 Windows本地解压Hadoop压缩包，然后像配置JDK环境变量一样在系统环境变量里配置HADOOP_HOME和path环境变量。注意：hadoop安装目录尽量不要包含空格或者中文字符。形如：添加windows环境下依赖的库文件阅读全文

posted @ 2017-10-20 12:22 做个有梦想的咸鱼阅读(3095) 评论(0) 推荐(0)

Hive 体系学习

摘要：Hive简介 Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并使用HQL作为查询接口、HDFS作为存储底层、MapReduce作为执行层，将HQL语句转换成MapReduce任务进行运行，从而达到数据统计、数据分析的功能。 Hive有自身的元数据结构描述，可阅读全文

posted @ 2017-08-08 10:12 做个有梦想的咸鱼阅读(416) 评论(0) 推荐(0)

Hive SQL 常用日期

摘要：Hive SQL 常用日期原文地址： "Hive SQL常用日期函数" Hive SQL 常用日期注意： MM DD MO TU等要大写已知日期|要求日期|语句|结果 | | | | 本周任意一天 | 本周一 | select date_sub(next_day('2016 11 29','M 阅读全文

posted @ 2017-07-25 09:06 做个有梦想的咸鱼阅读(3151) 评论(0) 推荐(0)

咸鱼

做个有梦想的咸鱼

随笔分类 - 大数据