• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
waker_wang
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

08 2018 档案

 
spark持久化
摘要:package com.wll; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class Persist { static SparkConf conf=new... 阅读全文
posted @ 2018-08-31 21:57 waker_wang 阅读(215) 评论(0) 推荐(0)
hive排序
摘要:1、order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 2、sort by不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只保证每个 阅读全文
posted @ 2018-08-28 10:46 waker_wang 阅读(1444) 评论(0) 推荐(0)
Hadoop参数调优
摘要:转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.task 阅读全文
posted @ 2018-08-27 16:13 waker_wang 阅读(1968) 评论(0) 推荐(0)
hive自定义函数(UDF)
摘要:首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候 你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就可以方便地插入用户写的处理代码并在查询中使用它们,相当于在HQL(Hive SQL)中自定义一些函数 阅读全文
posted @ 2018-08-27 15:46 waker_wang 阅读(1004) 评论(0) 推荐(0)
HDFS优缺点
摘要:1、之所以选择 HDFS 存储数据,是因为 HDFS 具有以下优点: (1) 高容错性 1) 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 2) 某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。 (2) 适合批处理 1) 它是通过移动计算而不是移动数据 阅读全文
posted @ 2018-08-27 11:44 waker_wang 阅读(11003) 评论(0) 推荐(0)
HDSF读写文件
摘要:HDFS 读取文件 HDFS的文件读取原理,主要包括以下几个步骤: 1、首先调用FileSystem对象的open方法,其实获取的是一个DistributedFileSystem的 实例。 2、DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的 loca 阅读全文
posted @ 2018-08-26 14:28 waker_wang 阅读(244) 评论(0) 推荐(0)
一个 mr 作业跑的比较慢,如何来优化。
摘要:mr跑的慢可能有很多原因,如:数据倾斜、map和reduce数设置不合理、reduce等待过久、小文件过多、spill 次数过多、 merge 次数过多等。 1、解决数据倾斜:数据倾斜可能是partition不合理,导致部分partition中的数据过多,部分过少。可通过分析数据,自定义分区器解决。 阅读全文
posted @ 2018-08-26 10:39 waker_wang 阅读(1508) 评论(0) 推荐(0)
MR执行流程
摘要:1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map(),接收1.1产生的<k,v>,进行处理,转换为新的<k,v>输出。 <hello,1> <you,1> <he 阅读全文
posted @ 2018-08-24 17:04 waker_wang 阅读(3984) 评论(0) 推荐(0)
关于Linux中mysql中文乱码
摘要:1、SHOW VARIABLES LIKE 'character_set_%';查看编码集 2、编辑/etc/my.cnf文件 加入这个设置 default-character-set=utf8 (这个是一劳永逸的方法) 然后重启mysql服务: sudo service mysqld restar 阅读全文
posted @ 2018-08-22 10:45 waker_wang 阅读(2474) 评论(0) 推荐(0)
hadoop的shuffle过程
摘要:1. shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); shuffle具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行排序; 2. shuffle缓存流程: shuffle是MapReduce处理流程中的一个过程, 阅读全文
posted @ 2018-08-21 16:04 waker_wang 阅读(666) 评论(0) 推荐(0)
hive调优
摘要: 阅读全文
posted @ 2018-08-20 14:53 waker_wang 阅读(138) 评论(0) 推荐(0)
hive...
摘要:ORDER BY和SORT BY ORDER BY用于全局排序,就是对指定的所有排序键进行全局排序,使用ORDER BY的查询语句,最后会用一个Reduce Task来完成全局排序。 SORT BY用于分区内排序,即每个Reduce任务内排序。 DISTRIBUTE BY和CLUSTER BY di 阅读全文
posted @ 2018-08-20 11:20 waker_wang 阅读(94) 评论(0) 推荐(0)
hive分区
摘要:Hive中的表分区 Hive中的表分区比较简单,就是将同一组数据放到同一个HDFS目录下,当查询中过滤条件指定了某一个分区值时候,只将该分区对应的目录作为Input,从而减少MapReduce的输入数据,提高查询效率。 创建分区表 CREATE EXTERNAL TABLE t_1 ( id INT 阅读全文
posted @ 2018-08-20 11:04 waker_wang 阅读(256) 评论(0) 推荐(0)
Hive的数据库和表
摘要:本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。 Hive的数据库和表 先看一张草图: Hive结构 Hive结构 从图上可以看出,Hive作为一个“数据库”,在结构上积极向传统数据库看齐,也分数据库(Schem 阅读全文
posted @ 2018-08-19 22:38 waker_wang 阅读(537) 评论(0) 推荐(0)
Hive函数大全
摘要:Hive函数大全(部分) 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、 阅读全文
posted @ 2018-08-19 22:36 waker_wang 阅读(1861) 评论(0) 推荐(0)
hive基础
摘要:1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduc 阅读全文
posted @ 2018-08-19 22:34 waker_wang 阅读(157) 评论(0) 推荐(0)
转-Spark编程指南
摘要:Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functions(函数)给 Spark 理解闭包 示例 Local(本地)vs. cluster(集群)模式 打 阅读全文
posted @ 2018-08-19 12:31 waker_wang 阅读(169) 评论(0) 推荐(0)
HDFS基础
摘要:hdfs原理,以及各个模块的作用 Hdfs文件读取 Hdfs的文件写入 Hdfs的块存储位置放置机制 Hdfs的块的流水式复制 当客户端写数据到HDFS文件中时,如上所述,数据首先被写入本地文件中,假设HDFS文件的复制因子是3,当本地文件堆积到一块大小的数据,客户端从名字节点获得一个数据节点的列表 阅读全文
posted @ 2018-08-18 22:27 waker_wang 阅读(169) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目14--总结
摘要:这个项目用到的东西就是一些常用的hive、sqoop、mysql以及涉及到MR的编写,总体难度不大,但是中间细节太多,需要很细心才能完整的做好这个项目。 比如其中的sqoop,虽然你只要写对,一分钟就能搞定,但是有时候中间不免有点卡带,就像我,有的时候,一个东西得写好几遍,反复对比才能知道错误在哪, 阅读全文
posted @ 2018-08-15 10:12 waker_wang 阅读(216) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目13---》可视化
摘要:安装PHPstudy 按照步骤安装,完成之后启动 打开浏览器,输入localhost,出现以下界面 可视化工具用的是 echarts 在phpstudy安装目录下的www文件夹里新建目录chart(名称自定义),然后将echarts.js移动到该目录下 新建一个以 .php为后缀名的文件 保存,然后 阅读全文
posted @ 2018-08-15 10:06 waker_wang 阅读(464) 评论(1) 推荐(0)
大数据小项目之电视收视率企业项目12
摘要:因为环境不足,所以没有用flume收集日志,而是用的已经从别的渠道的日志 日志截图: 编写以下脚本,将收集的日志文件上传至HDFS MR清洗数据 创建工程导入依赖库: Mapper类 Driver类 打jar包 上传jar包到虚拟机,执行命令 hadoop jar /home/wang/mrclic 阅读全文
posted @ 2018-08-15 09:50 waker_wang 阅读(417) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目11
摘要:sqoop数据迁移 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 工作机制 将导入或导出 阅读全文
posted @ 2018-08-15 09:08 waker_wang 阅读(362) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目10
摘要:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Agent主要由:source,channel,sink三个组 阅读全文
posted @ 2018-08-15 08:58 waker_wang 阅读(469) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目09--hive环境搭建
摘要:Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合。使用 阅读全文
posted @ 2018-08-15 08:47 waker_wang 阅读(343) 评论(0) 推荐(0)
spark入门: wordcount-java
摘要:wordcount-java: pom.xml文件如下: 阅读全文
posted @ 2018-08-14 22:49 waker_wang 阅读(328) 评论(0) 推荐(0)
转发一个关于下载qq无损音乐的博客
摘要:直接考copy就能成功下载了 https://www.52pojie.cn/thread-767941-1-1.html(转发网址) 阅读全文
posted @ 2018-08-14 14:03 waker_wang 阅读(1793) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目08--》MapReduce编写之Wordcount
摘要:编程规范 (1)用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端) (2)Mapper的输入数据是KV对的形式(KV的类型可自定义) (3)Mapper的输出数据是KV对的形式(KV的类型可自定义) (4)Mapper中的业务逻辑写在map()方法中 阅读全文
posted @ 2018-08-14 13:23 waker_wang 阅读(198) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目07
摘要:maven搭建(前提是在你的Windows电脑上有Java,并且能用) 下图为maven官网(http://maven.apache.org/) 安装 Maven 之前要求先确定你的 JDK 已经安装配置完成。Maven是 Apache 下的一个项目,我用的是3.5.2。 使用本地的maven环境 阅读全文
posted @ 2018-08-14 13:11 waker_wang 阅读(166) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目06
摘要:hadoop常用的命令 hdfs dfs -mkdir -p /user/wang/hadoop 递归创建目录 hdfs dfs -ls /user 查看/user下内容 hdfs dfs -ls -R /user 递归查看 hdfs dfs -help put hdfs dfs -put inde 阅读全文
posted @ 2018-08-14 12:56 waker_wang 阅读(151) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目05
摘要:通过hadoop自带的demo运行单词统计(测试) 在家目录下操作: 执行结果截图: 阅读全文
posted @ 2018-08-14 12:51 waker_wang 阅读(220) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目04--完全分布式搭建
摘要:完全分布式搭建 前边已经修改完ip了,那么现在就开始搭建完全分布式了 1、修改主机名 hostname(查看主机名) sudo nano /etc/hostname(修改主机名) 2、修改hosts文件 sudo nano /etc/hosts 添加格式为 IP + 主机名 之后重启所有虚拟机,然后 阅读全文
posted @ 2018-08-13 22:12 waker_wang 阅读(239) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目03
摘要:Yum的介绍 Yum 全称为 Yellow dog Updater, Modified,它是一个在线的软件安装命令。 他能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软体包,无须繁琐地一次次下载、安装。yum提供了查找、安装、删除某一个、一组甚至全部软件包 阅读全文
posted @ 2018-08-13 21:18 waker_wang 阅读(396) 评论(1) 推荐(0)
大数据小项目之电视收视率企业项目02
摘要:接上上篇.......... 》》 关闭防火墙 centos防火墙操作 [cnetos 6.5之前的版本] $>sudo service firewalld stop //停止服务 $>sudo service firewalld start //启动服务 $>sudo service firewa 阅读全文
posted @ 2018-08-12 22:50 waker_wang 阅读(227) 评论(0) 推荐(0)
大数据小项目之电视收视率企业项目01
摘要:一、VM安装(这个大家去百度吧....) 二、centos安装 版本:centos7 ’https://jingyan.baidu.com/article/a3aad71aa180e7b1fa009676.html(具体可以看这个) 1、安装好之后,始终用自己的用户名操作(这个很重要,因为如果在不同 阅读全文
posted @ 2018-08-12 22:35 waker_wang 阅读(480) 评论(0) 推荐(0)
本地Navicat连接虚拟机MySQL
摘要:安装完MySQL后,使用mysql命令进去,然后执行以下命令 grant all privileges on hive_metadata.* to 'hive'@'%' identified by '123456'; grant all privileges on hive_metadata.* t 阅读全文
posted @ 2018-08-10 12:58 waker_wang 阅读(659) 评论(0) 推荐(0)
centos7安装MySQL
摘要:1)安装依赖 yum search libaio # 检索相关信息 yum install libaio # 安装依赖包 2)检查 MySQL 是否已安装 yum list installed | grep mysql 如果有,就先全部卸载,命令如下: yum -y remove mysql-lib 阅读全文
posted @ 2018-08-10 12:27 waker_wang 阅读(117) 评论(0) 推荐(0)
完全分布式时间同步
摘要:1.安装ntp:sudo yum install ntp(在每台机器上都安装) 2.执行sudo ntpdate time.nist.gov命令(在每台机器上都执行) 3.执行结果10 Aug 12:07:44 ntpdate[4471]: no server suitable for synchr 阅读全文
posted @ 2018-08-10 12:15 waker_wang 阅读(308) 评论(0) 推荐(0)
关于在namanode上编写脚本控制DataNode的...
摘要:脚本如下:(我的虚拟机名字分别为:wang201 wang 202 wang 203 wang 204) 1.在/usr/local/bin/下创建一个文件 touch xcall.sh 2.修改权限以及own :chown -R xxxx:xxxx xcall.sh chmod 777 xcall 阅读全文
posted @ 2018-08-10 11:20 waker_wang 阅读(265) 评论(0) 推荐(0)
分布式时间同步ntp安装
摘要:直接执行:sudo yum install ntp或者sudo -y install ntp 阅读全文
posted @ 2018-08-10 11:09 waker_wang 阅读(230) 评论(0) 推荐(0)
yum安装报错
摘要:检查了好久才知道原来是 sudo nano /etc/sysconfig/network-scripts/ifcfg-ens33 下的DNS配错了,改好之后,sudo service network restart 就ok了 阅读全文
posted @ 2018-08-10 11:04 waker_wang 阅读(154) 评论(0) 推荐(0)
Hadoop HDFS
摘要:Hadoop主要有两个层次,即: 加工/计算层(MapReduce),以及 存储层(Hadoop分布式文件系统,即HDFS)。 Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。 HDFS拥有超大型的数据量,并提供更 阅读全文
posted @ 2018-08-02 19:22 waker_wang 阅读(159) 评论(0) 推荐(0)
 

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3