卅先生 - 博客园

2019年4月10日

摘要：用Java开发已经四年，中途学了python，Scala，接触这些开发语言后，总感觉Java就像老奶奶裹脚——又臭又长。然，Java虐我千百遍，我待Java如初恋。聊起Java，不得不谈Java的内存结构，请注意，要区别Java内存模型（JMM，关于happens-before、读写屏障啥的）。结阅读全文

posted @ 2019-04-10 18:39 卅先生阅读(201) 评论(0) 推荐(0)

2019年4月4日

原码、反码、补码新解

摘要：世界上有10中人，一种懂二进制，一种不懂二进制。我们习惯了十进制计数，乍看到二进制，有点别扭，认识后慢慢发现它的神奇：有点一生二，二生万物的意思。十进制和二进制的部分对应关系如下：小范围的十进制运算，我们操练起来麻麻溜溜的，二进制的运算相信你也不差，然，碰到... 阅读全文

posted @ 2019-04-04 16:23 卅先生阅读(353) 评论(0) 推荐(0)

2019年3月28日

python与正则表达式

摘要：正则表达式是什么？可以理解为文本的一种抽象特征，通过特定的符号规则，来对应特定的文本。这里我们实践的是python中的正则表达式。python中使用正则表达式很简单，包括下面4个简单步骤：引入正则表达式模块，import re；用re.compile()函数... 阅读全文

posted @ 2019-03-28 12:39 卅先生阅读(637) 评论(0) 推荐(0)

2019年3月20日

python可视化基础

摘要：常用的python可视化工具包是matplotlib，seaborn是在matplotlib基础上做的进一步封装。入坑python可视化，对有些人来说如同望山跑死马，心气上早输了一节。其实学习一门新知识，首先要掌握的是这门知识的最少最核心知识，剩下的就让它在... 阅读全文

posted @ 2019-03-20 23:02 卅先生阅读(3819) 评论(0) 推荐(0)

2019年3月9日

spark算子集锦

摘要： Spark 是大数据领域的一大利器，花时间总结了一下 Spark 常用算子，正所谓温故而知新。Spark 算子按照功能分，可以分成两大类：transform 和 action。Transform 不进行实际计算，是惰性的，action 操作才进行实际的计算。... 阅读全文

posted @ 2019-03-09 21:47 卅先生阅读(618) 评论(0) 推荐(0)

2019年3月5日

Hadoop shell 一查就会

摘要： Hadoop shell 命令有三种格式hdfs + dfs (必须是dfs)Hadoop + dfsHadoop + df命令说明hadoop 版本查看hadoop versionhadoop 显示命令信息hadoop dfs列出 HDFS 目录Hadoo... 阅读全文

posted @ 2019-03-05 11:43 卅先生阅读(225) 评论(0) 推荐(0)

2019年1月30日

Spark你需要知道这些

摘要：谈到 Spark，我们总是强调它比 Hadoop 更高效。为什么它可以更高效呢？是因为它优先使用内存存储？还是因为它拥有比 MapReduce 更简单高效的计算模型？与 Hadoop 作业的区别我们知道在 Hadoop 中，一个作业（Job）可以有一个或多个... 阅读全文

posted @ 2019-01-30 19:22 卅先生阅读(429) 评论(0) 推荐(0)

Hive 基础你需要掌握这些

摘要： HDFS 中一个简单的 Join查询，是否需要撸一大串代码？我只会SQL语句能不能入坑大数据？这里我们就来聊一聊 Hive。Hive 是什么？Hive 是一种数据仓库工具，不提供数据存储（数据还是存储在 HDFS 上），它能让你通过 SQL语句实现 Map... 阅读全文

posted @ 2019-01-30 11:49 卅先生阅读(419) 评论(0) 推荐(0)

2019年1月29日

从 Hadoop 1.0 到 Hadoop 2.0 ，你需要了解这些

摘要：学习大数据，刚开始接触的是 Hadoop 1.0，然后过度到 Hadoop 2.0 ，这里为了书写方便，本文中 Hadoop 1.0 采用 HV1 的缩写方式，Hadoop 2.0 采用 HV2 的缩写方式。HV1 中不得不提的两个进程：JobTracker... 阅读全文

posted @ 2019-01-29 12:36 卅先生阅读(405) 评论(0) 推荐(0)

2019年1月28日

HDFS要点剖析

摘要：谈到大数据，不得不提的一个名词是“HDFS”。它是一种分布式文件存储系统，其系统架构图如下图所示：从图中可以了解到的几个关键概念元数据（MetaData）机架（Rock）块（Block）从图中可以了解到的两个重要组件：NameNodeDataNode需要了解... 阅读全文

posted @ 2019-01-28 22:30 卅先生阅读(208) 评论(0) 推荐(0)

入微者说

公告