摘要: 用Java开发已经四年,中途学了python,Scala,接触这些开发语言后,总感觉Java就像老奶奶裹脚——又臭又长。然,Java虐我千百遍,我待Java如初恋。聊起Java,不得不谈Java的内存结构,请注意,要区别Java内存模型(JMM,关于happens-before、读写屏障啥的)。 结 阅读全文
posted @ 2019-04-10 18:39 卅先生 阅读(187) 评论(0) 推荐(0)
摘要: 世界上有10中人,一种懂二进制,一种不懂二进制。我们习惯了十进制计数,乍看到二进制,有点别扭,认识后慢慢发现它的神奇:有点一生二,二生万物的意思。十进制和二进制的部分对应关系如下:小范围的十进制运算,我们操练起来麻麻溜溜的,二进制的运算相信你也不差,然,碰到... 阅读全文
posted @ 2019-04-04 16:23 卅先生 阅读(325) 评论(0) 推荐(0)
摘要: 正则表达式是什么?可以理解为文本的一种抽象特征,通过特定的符号规则,来对应特定的文本。这里我们实践的是python中的正则表达式。python中使用正则表达式很简单,包括下面4个简单步骤:引入正则表达式模块,import re;用re.compile()函数... 阅读全文
posted @ 2019-03-28 12:39 卅先生 阅读(629) 评论(0) 推荐(0)
摘要: 常用的python可视化工具包是matplotlib,seaborn是在matplotlib基础上做的进一步封装。入坑python可视化,对有些人来说如同望山跑死马,心气上早输了一节。其实学习一门新知识,首先要掌握的是这门知识的最少最核心知识,剩下的就让它在... 阅读全文
posted @ 2019-03-20 23:02 卅先生 阅读(3802) 评论(0) 推荐(0)
摘要: Spark 是大数据领域的一大利器,花时间总结了一下 Spark 常用算子,正所谓温故而知新。Spark 算子按照功能分,可以分成两大类:transform 和 action。Transform 不进行实际计算,是惰性的,action 操作才进行实际的计算。... 阅读全文
posted @ 2019-03-09 21:47 卅先生 阅读(600) 评论(0) 推荐(0)
摘要: Hadoop shell 命令有三种格式hdfs + dfs (必须是dfs)Hadoop + dfsHadoop + df命令说明hadoop 版本查看hadoop versionhadoop 显示命令信息hadoop dfs列出 HDFS 目录Hadoo... 阅读全文
posted @ 2019-03-05 11:43 卅先生 阅读(219) 评论(0) 推荐(0)
摘要: 谈到 Spark,我们总是强调它比 Hadoop 更高效。为什么它可以更高效呢?是因为它优先使用内存存储?还是因为它拥有比 MapReduce 更简单高效的计算模型?与 Hadoop 作业的区别我们知道在 Hadoop 中,一个作业(Job)可以有一个或多个... 阅读全文
posted @ 2019-01-30 19:22 卅先生 阅读(417) 评论(0) 推荐(0)
摘要: HDFS 中一个简单的 Join查询,是否需要撸一大串代码?我只会SQL语句 能不能入坑大数据?这里我们就来聊一聊 Hive。Hive 是什么?Hive 是一种数据仓库工具,不提供数据存储(数据还是存储在 HDFS 上),它能让你通过 SQL语句实现 Map... 阅读全文
posted @ 2019-01-30 11:49 卅先生 阅读(415) 评论(0) 推荐(0)
摘要: 学习大数据,刚开始接触的是 Hadoop 1.0,然后过度到 Hadoop 2.0 ,这里为了书写方便,本文中 Hadoop 1.0 采用 HV1 的缩写方式,Hadoop 2.0 采用 HV2 的缩写方式。HV1 中不得不提的两个进程:JobTracker... 阅读全文
posted @ 2019-01-29 12:36 卅先生 阅读(385) 评论(0) 推荐(0)
摘要: 谈到大数据,不得不提的一个名词是“HDFS”。它是一种分布式文件存储系统,其系统架构图如下图所示:从图中可以了解到的几个关键概念元数据(MetaData)机架(Rock)块(Block)从图中可以了解到的两个重要组件:NameNodeDataNode需要了解... 阅读全文
posted @ 2019-01-28 22:30 卅先生 阅读(201) 评论(0) 推荐(0)