摘要: 一、序列化 1.正则表达式 创建表 2.通过json文件创建表 需要注意的问题: 每行必须是一个完整的JSON,一个JSON串不能跨 越多行,原因是Hadoop是依赖换行符分割文件的。 创建数据表:(数据表中的列名与JSON中的KEY保持一致) 3.什么是SerDe: SerDe是“Serializ 阅读全文
posted @ 2019-09-06 16:40 Sprio丨往昔 阅读(1096) 评论(0) 推荐(0) 编辑
摘要: 一、Hive的数据类型 1.基本数据类型 由上表我们看到hive不支持日期类型,在hive里日期都是用字符串来表示的,而常用的日期格式转化操作则是通过自定义函数进行操作。 hive是用java开发的,hive里的基本数据类型和java的基本数据类型也是一一对应的,除了string类型。有符号的整数类 阅读全文
posted @ 2019-09-05 19:05 Sprio丨往昔 阅读(800) 评论(0) 推荐(0) 编辑
摘要: 一、Hive的简介和配置 1.简介 Hive是构建在Hadoop之上的数据操作平台l Hive是一个SQL解析引擎,它将SQL转译成MapReduce作业,并在Hadoop上运行Hive表是HDFS的一个文件目录,一个表名对应一个目录名,如果存在分区表的话,则分区值对应子目录名。 2.Hive的体系 阅读全文
posted @ 2019-09-05 14:33 Sprio丨往昔 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce 跑的慢的原因 1.Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘健康、网络 2)I/O 操作优化 (1)数据倾斜 (2)map和reduce数设置不合理 (3)map运行时间太长,导致reduce等待过久 (4)小文件过多 (5)大量的不可分 阅读全文
posted @ 2019-08-29 19:56 Sprio丨往昔 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 一、Wordcount练习 1.需求:通过hadoop分析文件中单词总数 1.要被分析的文件内容如图所示,每个单词之间以空格分开 2.实现的效果如图 2.代码实现 1.解决数据倾斜问题 考虑到在机器运行过程中 Reduce阶段每个相同的Key会由一个ReduceTask来处理,而java共有十六万个 阅读全文
posted @ 2019-08-29 19:41 Sprio丨往昔 阅读(1436) 评论(0) 推荐(0) 编辑
摘要: Hadoop 的最基础Hdfs MapReduce Yarn组件的运行原理 阅读全文
posted @ 2019-08-29 14:33 Sprio丨往昔 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 简单的运用Js操作Html 阅读全文
posted @ 2019-07-30 14:06 Sprio丨往昔 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 二、数据库的练习 阅读全文
posted @ 2019-07-10 16:27 Sprio丨往昔 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 一、反射 1.什么是反射 反射是指在程序运行期间,能够观察和修改类或者类的对象的属性和行为的特性 2.为什么用反射 在java中有动态和静态的概念 静态是指在java中所有的类都编写好编译通过运行 动态是在在编写好类,编译运行中动态获取类的信息修改类的属性叫做反射. 例如:在已经运行的大项目中需要修 阅读全文
posted @ 2019-06-19 18:54 Sprio丨往昔 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一、进程和线程的区别 进程是指程序的应用实例,会占用独立的内存空间和系统资源 线程是指CPU的调度和分派的基本单位,统一程序 执行多个操作叫做线程 1.什么是多线程 如果在一个进程中同时运行了多个线程,用来完成不同的工作,则称之为“多线程” 多个线程交替占用CPU资源,而非真正的并行执行 2.多线程 阅读全文
posted @ 2019-06-18 17:30 Sprio丨往昔 阅读(168) 评论(0) 推荐(0) 编辑