spark持久化
摘要:package com.wll; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class Persist { static SparkConf conf=new...
阅读全文
hive排序
摘要:1、order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 2、sort by不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只保证每个
阅读全文
Hadoop参数调优
摘要:转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.task
阅读全文
hive自定义函数(UDF)
摘要:首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候 你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就可以方便地插入用户写的处理代码并在查询中使用它们,相当于在HQL(Hive SQL)中自定义一些函数
阅读全文
HDFS优缺点
摘要:1、之所以选择 HDFS 存储数据,是因为 HDFS 具有以下优点: (1) 高容错性 1) 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 2) 某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。 (2) 适合批处理 1) 它是通过移动计算而不是移动数据
阅读全文
HDSF读写文件
摘要:HDFS 读取文件 HDFS的文件读取原理,主要包括以下几个步骤: 1、首先调用FileSystem对象的open方法,其实获取的是一个DistributedFileSystem的 实例。 2、DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的 loca
阅读全文
一个 mr 作业跑的比较慢,如何来优化。
摘要:mr跑的慢可能有很多原因,如:数据倾斜、map和reduce数设置不合理、reduce等待过久、小文件过多、spill 次数过多、 merge 次数过多等。 1、解决数据倾斜:数据倾斜可能是partition不合理,导致部分partition中的数据过多,部分过少。可通过分析数据,自定义分区器解决。
阅读全文
MR执行流程
摘要:1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map(),接收1.1产生的<k,v>,进行处理,转换为新的<k,v>输出。 <hello,1> <you,1> <he
阅读全文
关于Linux中mysql中文乱码
摘要:1、SHOW VARIABLES LIKE 'character_set_%';查看编码集 2、编辑/etc/my.cnf文件 加入这个设置 default-character-set=utf8 (这个是一劳永逸的方法) 然后重启mysql服务: sudo service mysqld restar
阅读全文
hadoop的shuffle过程
摘要:1. shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); shuffle具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行排序; 2. shuffle缓存流程: shuffle是MapReduce处理流程中的一个过程,
阅读全文
hive...
摘要:ORDER BY和SORT BY ORDER BY用于全局排序,就是对指定的所有排序键进行全局排序,使用ORDER BY的查询语句,最后会用一个Reduce Task来完成全局排序。 SORT BY用于分区内排序,即每个Reduce任务内排序。 DISTRIBUTE BY和CLUSTER BY di
阅读全文
hive分区
摘要:Hive中的表分区 Hive中的表分区比较简单,就是将同一组数据放到同一个HDFS目录下,当查询中过滤条件指定了某一个分区值时候,只将该分区对应的目录作为Input,从而减少MapReduce的输入数据,提高查询效率。 创建分区表 CREATE EXTERNAL TABLE t_1 ( id INT
阅读全文
Hive的数据库和表
摘要:本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。 Hive的数据库和表 先看一张草图: Hive结构 Hive结构 从图上可以看出,Hive作为一个“数据库”,在结构上积极向传统数据库看齐,也分数据库(Schem
阅读全文
Hive函数大全
摘要:Hive函数大全(部分) 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、
阅读全文
hive基础
摘要:1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduc
阅读全文
转-Spark编程指南
摘要:Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functions(函数)给 Spark 理解闭包 示例 Local(本地)vs. cluster(集群)模式 打
阅读全文
HDFS基础
摘要:hdfs原理,以及各个模块的作用 Hdfs文件读取 Hdfs的文件写入 Hdfs的块存储位置放置机制 Hdfs的块的流水式复制 当客户端写数据到HDFS文件中时,如上所述,数据首先被写入本地文件中,假设HDFS文件的复制因子是3,当本地文件堆积到一块大小的数据,客户端从名字节点获得一个数据节点的列表
阅读全文
大数据小项目之电视收视率企业项目14--总结
摘要:这个项目用到的东西就是一些常用的hive、sqoop、mysql以及涉及到MR的编写,总体难度不大,但是中间细节太多,需要很细心才能完整的做好这个项目。 比如其中的sqoop,虽然你只要写对,一分钟就能搞定,但是有时候中间不免有点卡带,就像我,有的时候,一个东西得写好几遍,反复对比才能知道错误在哪,
阅读全文
大数据小项目之电视收视率企业项目13---》可视化
摘要:安装PHPstudy 按照步骤安装,完成之后启动 打开浏览器,输入localhost,出现以下界面 可视化工具用的是 echarts 在phpstudy安装目录下的www文件夹里新建目录chart(名称自定义),然后将echarts.js移动到该目录下 新建一个以 .php为后缀名的文件 保存,然后
阅读全文
大数据小项目之电视收视率企业项目12
摘要:因为环境不足,所以没有用flume收集日志,而是用的已经从别的渠道的日志 日志截图: 编写以下脚本,将收集的日志文件上传至HDFS MR清洗数据 创建工程导入依赖库: Mapper类 Driver类 打jar包 上传jar包到虚拟机,执行命令 hadoop jar /home/wang/mrclic
阅读全文
大数据小项目之电视收视率企业项目11
摘要:sqoop数据迁移 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 工作机制 将导入或导出
阅读全文
大数据小项目之电视收视率企业项目10
摘要:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Agent主要由:source,channel,sink三个组
阅读全文
大数据小项目之电视收视率企业项目09--hive环境搭建
摘要:Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合。使用
阅读全文
spark入门: wordcount-java
摘要:wordcount-java: pom.xml文件如下:
阅读全文
转发一个关于下载qq无损音乐的博客
摘要:直接考copy就能成功下载了 https://www.52pojie.cn/thread-767941-1-1.html(转发网址)
阅读全文
大数据小项目之电视收视率企业项目08--》MapReduce编写之Wordcount
摘要:编程规范 (1)用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端) (2)Mapper的输入数据是KV对的形式(KV的类型可自定义) (3)Mapper的输出数据是KV对的形式(KV的类型可自定义) (4)Mapper中的业务逻辑写在map()方法中
阅读全文
大数据小项目之电视收视率企业项目07
摘要:maven搭建(前提是在你的Windows电脑上有Java,并且能用) 下图为maven官网(http://maven.apache.org/) 安装 Maven 之前要求先确定你的 JDK 已经安装配置完成。Maven是 Apache 下的一个项目,我用的是3.5.2。 使用本地的maven环境
阅读全文
大数据小项目之电视收视率企业项目06
摘要:hadoop常用的命令 hdfs dfs -mkdir -p /user/wang/hadoop 递归创建目录 hdfs dfs -ls /user 查看/user下内容 hdfs dfs -ls -R /user 递归查看 hdfs dfs -help put hdfs dfs -put inde
阅读全文
大数据小项目之电视收视率企业项目05
摘要:通过hadoop自带的demo运行单词统计(测试) 在家目录下操作: 执行结果截图:
阅读全文
大数据小项目之电视收视率企业项目04--完全分布式搭建
摘要:完全分布式搭建 前边已经修改完ip了,那么现在就开始搭建完全分布式了 1、修改主机名 hostname(查看主机名) sudo nano /etc/hostname(修改主机名) 2、修改hosts文件 sudo nano /etc/hosts 添加格式为 IP + 主机名 之后重启所有虚拟机,然后
阅读全文
大数据小项目之电视收视率企业项目03
摘要:Yum的介绍 Yum 全称为 Yellow dog Updater, Modified,它是一个在线的软件安装命令。 他能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软体包,无须繁琐地一次次下载、安装。yum提供了查找、安装、删除某一个、一组甚至全部软件包
阅读全文
大数据小项目之电视收视率企业项目02
摘要:接上上篇.......... 》》 关闭防火墙 centos防火墙操作 [cnetos 6.5之前的版本] $>sudo service firewalld stop //停止服务 $>sudo service firewalld start //启动服务 $>sudo service firewa
阅读全文
大数据小项目之电视收视率企业项目01
摘要:一、VM安装(这个大家去百度吧....) 二、centos安装 版本:centos7 ’https://jingyan.baidu.com/article/a3aad71aa180e7b1fa009676.html(具体可以看这个) 1、安装好之后,始终用自己的用户名操作(这个很重要,因为如果在不同
阅读全文
本地Navicat连接虚拟机MySQL
摘要:安装完MySQL后,使用mysql命令进去,然后执行以下命令 grant all privileges on hive_metadata.* to 'hive'@'%' identified by '123456'; grant all privileges on hive_metadata.* t
阅读全文
centos7安装MySQL
摘要:1)安装依赖 yum search libaio # 检索相关信息 yum install libaio # 安装依赖包 2)检查 MySQL 是否已安装 yum list installed | grep mysql 如果有,就先全部卸载,命令如下: yum -y remove mysql-lib
阅读全文
完全分布式时间同步
摘要:1.安装ntp:sudo yum install ntp(在每台机器上都安装) 2.执行sudo ntpdate time.nist.gov命令(在每台机器上都执行) 3.执行结果10 Aug 12:07:44 ntpdate[4471]: no server suitable for synchr
阅读全文
关于在namanode上编写脚本控制DataNode的...
摘要:脚本如下:(我的虚拟机名字分别为:wang201 wang 202 wang 203 wang 204) 1.在/usr/local/bin/下创建一个文件 touch xcall.sh 2.修改权限以及own :chown -R xxxx:xxxx xcall.sh chmod 777 xcall
阅读全文
分布式时间同步ntp安装
摘要:直接执行:sudo yum install ntp或者sudo -y install ntp
阅读全文
yum安装报错
摘要:检查了好久才知道原来是 sudo nano /etc/sysconfig/network-scripts/ifcfg-ens33 下的DNS配错了,改好之后,sudo service network restart 就ok了
阅读全文
Hadoop HDFS
摘要:Hadoop主要有两个层次,即: 加工/计算层(MapReduce),以及 存储层(Hadoop分布式文件系统,即HDFS)。 Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。 HDFS拥有超大型的数据量,并提供更
阅读全文