随笔分类 -  Linux

摘要:一、hive配置修改 1、在hive-site.xml文件中添加如下配置信息,就可以实现显示当前数据库,以及查询表的头信息配置。 <property> <name>hive.cli.print.header</name> <value>true</value> </property> <proper 阅读全文
posted @ 2020-11-11 20:24 程序那点事 阅读(123) 评论(0) 推荐(1)
摘要:1、注:先开起 hiveserver2 服务 2、源代码 package com.me.jdbc; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import 阅读全文
posted @ 2020-11-10 22:00 程序那点事 阅读(132) 评论(0) 推荐(1)
摘要:一、Hive的介绍 1. Hive是一个数据仓库软件 Hive可以使用SQL来促进对已经存在在分布式设备中的数据进行读,写和管理等操作! Hive在使用时,需要对已经存储的数据进行结构的投影(映射) Hive提供了一个命令行和JDBC的方式,让用户可以连接到hive! 注意:Hive只能分析结构化的 阅读全文
posted @ 2020-11-10 21:56 程序那点事 阅读(506) 评论(0) 推荐(1)
摘要:package com.me.Utils; import com.mongodb.BasicDBObject; import com.mongodb.MongoClient; import com.mongodb.client.FindIterable; import com.mongodb.cli 阅读全文
posted @ 2020-10-23 19:49 程序那点事 阅读(100) 评论(0) 推荐(1)
摘要:一、说在前面:这是借鉴邹老师的哦! 1、配置文件 hbase.site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- /** * * Licensed to the 阅读全文
posted @ 2020-10-17 10:00 程序那点事 阅读(104) 评论(0) 推荐(1)
摘要:一、MR和HBase集成 1.Hbase可以做简单的查询,但是无法对查询的结果进行深加工! 可以使用MR来进行hbase中数据的深加工! 2. MR必须持有可以读取HBase中数据的api才可以! 在MR启动时,在MR程序的类路径下,把读取hbase的jar包加入进去! ①使用MR读取hbase,需 阅读全文
posted @ 2020-10-17 09:52 程序那点事 阅读(341) 评论(0) 推荐(1)
摘要:一、HBase支持随机写 HBase的读写操作还是借助HDFS完成,要完成随机写,根本上还是需要复合HDFS的特性! HDFS只支持追加写! 随机的操作: Update+Delete 借助 追加写+时间戳(版本号) 只允许客户端查询时返回时间戳最新的数据! 二、 HBase支持海量数据的实时读写 ① 阅读全文
posted @ 2020-10-16 15:06 程序那点事 阅读(229) 评论(0) 推荐(1)
摘要:一、要求:求每年最高气温,原始数据如下: 2014010114 2014010216 2014010317 2014010410 2014010506 2012010609 2012010732 2012010812 2012010919 2012011023 2001010116 20010102 阅读全文
posted @ 2020-10-15 16:58 程序那点事 阅读(132) 评论(0) 推荐(1)
摘要:一、要求 调用HDFS文件接口实现对分布式文件系统中文件的访问,如创建、修改、删除等。 参考代码: package com.me.sy1; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataI 阅读全文
posted @ 2020-10-15 16:52 程序那点事 阅读(257) 评论(0) 推荐(1)
摘要:一、Namenode1.作用 ①负责元数据的存储 ②负责接受和处理客户端的请求 ③负责接受DN上报的信息 ④和DN保持心跳,向DN下达命令 2.元数据包含两部分 ①文件的属性(保存在edits+fsimage) ②块的位置信息(由DN启动后自动上报,动态生成) 3.存储元数据的文件①edits文件: 阅读全文
posted @ 2020-10-01 10:19 程序那点事 阅读(1040) 评论(1) 推荐(1)
摘要:一、HDFS1. HDFS的本质是一个文件系统,特点是分布式,需要在多台机器启动多个NN,DN进程组成一个分布式系统 2. HDFS不支持对一个文件的并发写入,也不支持对文件的随机修改,不适合存储小文件(存储小文件时会降低NN的服务能力) 3. HDFS的块大小 块大小可以通过hdfs-site.x 阅读全文
posted @ 2020-09-29 20:50 程序那点事 阅读(314) 评论(0) 推荐(1)
摘要:一、完全分布式集群的搭建1.进程规划 原则: ①核心进程尽量分散 ②同质进程尽量分散 2.集群间复制①scp scp -r 源文件的用户名@主机名:源文件路径 目标文件的用户名@主机名:目标文件路径 特点: 全量复制 ②rsync rsync -rvlt 源文件路径 目标文件的用户名@主机名:目标文 阅读全文
posted @ 2020-09-27 20:07 程序那点事 阅读(455) 评论(0) 推荐(1)
摘要:一、大数据1.含义 大数据指在一定时间范围内使用常规的软件无法处理的数据集合! 2.特点 ①海量 ②高增长率 ③多样性 ④低价值密度 二、Hadoop1.含义 狭义: Hadoop只代表hadoop框架本身! 广义: hadoop代表整个hadoop体系,由hadoop框架和其他依赖于hadoop的 阅读全文
posted @ 2020-09-25 16:13 程序那点事 阅读(384) 评论(0) 推荐(1)
摘要:一、说在前面 1、本周主要学习了伪分布式 二、HDFS 负责大数据的存储 核心进程: 必须进程: Namenode(1个): 负责文件,名称等元数据(属性信息)的存储! 文件名,大小,文件切分了多少块(block),创建和修改时间等! 职责: 接受客户端的请求! 接受DN的请求! 向DN分配任务! 阅读全文
posted @ 2020-08-27 17:40 程序那点事 阅读(94) 评论(0) 推荐(1)
摘要:一、说在前面 1、本周主要学习了hadoop的安装和简单使用 2、下周主要学习伪分布式 二、Hadoop的安装 ①Hadoop运行的前提是本机已经安装了JDK,配置JAVA_HOME变量②在Hadoop中启动多种不同类型的进程 例如NN,DN,RM,NM,这些进程需要进行通信! 在通信时,常用主机名 阅读全文
posted @ 2020-08-20 15:23 程序那点事 阅读(114) 评论(0) 推荐(1)
摘要:一、说在前面 1、本周主要学习了shell编程 2、下周主要学习hadoop的安装和简单使用 二、shell编程 1.shell是什么 Linux操作系统的核心是kernal(内核)! 当应用程序在执行时,需要调用计算机硬件的cpu,内存等资源! 程序将指令发送给内核执行! 为了防止程序发送一些恶意 阅读全文
posted @ 2020-08-13 15:23 程序那点事 阅读(98) 评论(0) 推荐(1)
摘要:一、说在前面 1、本周主要复习了Linux基础知识, 2、下周学习shell编程 二、Linux基础知识总结 1、Linux关机重启命令 (1)sync (功能描述:将数据由内存同步到硬盘中) (2)halt (功能描述:关闭系统,等同于shutdown -h now 和 poweroff) (3) 阅读全文
posted @ 2020-08-06 17:09 程序那点事 阅读(118) 评论(0) 推荐(1)