随笔档案「2018年8月」 - waker_wang

spark持久化

摘要：package com.wll; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class Persist { static SparkConf conf=new... 阅读全文

posted @ 2018-08-31 21:57 waker_wang 阅读(215) 评论(0) 推荐(0)

hive排序

摘要：1、order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。 2、sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个阅读全文

posted @ 2018-08-28 10:46 waker_wang 阅读(1444) 评论(0) 推荐(0)

Hadoop参数调优

摘要：转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.task 阅读全文

posted @ 2018-08-27 16:13 waker_wang 阅读(1968) 评论(0) 推荐(0)

hive自定义函数（UDF）

摘要：首先什么是UDF，UDF的全称为user-defined function，用户定义函数，为什么有它的存在呢？有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示，通过写UDF，Hive就可以方便地插入用户写的处理代码并在查询中使用它们，相当于在HQL（Hive SQL）中自定义一些函数阅读全文

posted @ 2018-08-27 15:46 waker_wang 阅读(1004) 评论(0) 推荐(0)

HDFS优缺点

摘要：1、之所以选择 HDFS 存储数据，是因为 HDFS 具有以下优点： (1) 高容错性 1) 数据自动保存多个副本。它通过增加副本的形式，提高容错性。 2) 某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的，我们不必关心。 (2) 适合批处理 1) 它是通过移动计算而不是移动数据阅读全文

posted @ 2018-08-27 11:44 waker_wang 阅读(11003) 评论(0) 推荐(0)

HDSF读写文件

摘要：HDFS 读取文件 HDFS的文件读取原理，主要包括以下几个步骤： 1、首先调用FileSystem对象的open方法，其实获取的是一个DistributedFileSystem的实例。 2、DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的 loca 阅读全文

posted @ 2018-08-26 14:28 waker_wang 阅读(244) 评论(0) 推荐(0)

一个 mr 作业跑的比较慢，如何来优化。

摘要：mr跑的慢可能有很多原因，如：数据倾斜、map和reduce数设置不合理、reduce等待过久、小文件过多、spill 次数过多、 merge 次数过多等。 1、解决数据倾斜：数据倾斜可能是partition不合理，导致部分partition中的数据过多，部分过少。可通过分析数据，自定义分区器解决。阅读全文

posted @ 2018-08-26 10:39 waker_wang 阅读(1508) 评论(0) 推荐(0)

MR执行流程

摘要：1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map()，接收1.1产生的<k,v>，进行处理，转换为新的<k,v>输出。 <hello,1> <you,1> <he 阅读全文

posted @ 2018-08-24 17:04 waker_wang 阅读(3984) 评论(0) 推荐(0)

关于Linux中mysql中文乱码

摘要：1、SHOW VARIABLES LIKE 'character_set_%';查看编码集 2、编辑/etc/my.cnf文件加入这个设置 default-character-set=utf8 （这个是一劳永逸的方法）然后重启mysql服务： sudo service mysqld restar 阅读全文

posted @ 2018-08-22 10:45 waker_wang 阅读(2474) 评论(0) 推荐(0)

hadoop的shuffle过程

摘要：1. shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）； shuffle具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行排序； 2. shuffle缓存流程： shuffle是MapReduce处理流程中的一个过程，阅读全文

posted @ 2018-08-21 16:04 waker_wang 阅读(666) 评论(0) 推荐(0)

hive调优

摘要：阅读全文

posted @ 2018-08-20 14:53 waker_wang 阅读(138) 评论(0) 推荐(0)

hive...

摘要：ORDER BY和SORT BY ORDER BY用于全局排序，就是对指定的所有排序键进行全局排序，使用ORDER BY的查询语句，最后会用一个Reduce Task来完成全局排序。 SORT BY用于分区内排序，即每个Reduce任务内排序。 DISTRIBUTE BY和CLUSTER BY di 阅读全文

posted @ 2018-08-20 11:20 waker_wang 阅读(94) 评论(0) 推荐(0)

hive分区

摘要：Hive中的表分区 Hive中的表分区比较简单，就是将同一组数据放到同一个HDFS目录下，当查询中过滤条件指定了某一个分区值时候，只将该分区对应的目录作为Input，从而减少MapReduce的输入数据，提高查询效率。创建分区表 CREATE EXTERNAL TABLE t_1 ( id INT 阅读全文

posted @ 2018-08-20 11:04 waker_wang 阅读(256) 评论(0) 推荐(0)

Hive的数据库和表

摘要：本文介绍一下Hive中的数据库（Database/Schema）和表（Table）的基础知识，由于篇幅原因，这里只是一些常用的、基础的。 Hive的数据库和表先看一张草图： Hive结构 Hive结构从图上可以看出，Hive作为一个“数据库”，在结构上积极向传统数据库看齐，也分数据库（Schem 阅读全文

posted @ 2018-08-19 22:38 waker_wang 阅读(537) 评论(0) 推荐(0)

Hive函数大全

摘要：Hive函数大全（部分）现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当长，但是它太方便、阅读全文

posted @ 2018-08-19 22:36 waker_wang 阅读(1861) 评论(0) 推荐(0)

hive基础

摘要：1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduc 阅读全文

posted @ 2018-08-19 22:34 waker_wang 阅读(157) 评论(0) 推荐(0)

转-Spark编程指南

摘要：Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets（数据集） RDD 操作基础传递 Functions（函数）给 Spark 理解闭包示例 Local（本地）vs. cluster（集群）模式打阅读全文

posted @ 2018-08-19 12:31 waker_wang 阅读(169) 评论(0) 推荐(0)

HDFS基础

摘要：hdfs原理，以及各个模块的作用 Hdfs文件读取 Hdfs的文件写入 Hdfs的块存储位置放置机制 Hdfs的块的流水式复制当客户端写数据到HDFS文件中时，如上所述，数据首先被写入本地文件中，假设HDFS文件的复制因子是3，当本地文件堆积到一块大小的数据，客户端从名字节点获得一个数据节点的列表阅读全文

posted @ 2018-08-18 22:27 waker_wang 阅读(169) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目14--总结

摘要：这个项目用到的东西就是一些常用的hive、sqoop、mysql以及涉及到MR的编写，总体难度不大，但是中间细节太多，需要很细心才能完整的做好这个项目。比如其中的sqoop，虽然你只要写对，一分钟就能搞定，但是有时候中间不免有点卡带，就像我，有的时候，一个东西得写好几遍，反复对比才能知道错误在哪，阅读全文

posted @ 2018-08-15 10:12 waker_wang 阅读(216) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目13---》可视化

摘要：安装PHPstudy 按照步骤安装，完成之后启动打开浏览器，输入localhost，出现以下界面可视化工具用的是 echarts 在phpstudy安装目录下的www文件夹里新建目录chart（名称自定义），然后将echarts.js移动到该目录下新建一个以 .php为后缀名的文件保存，然后阅读全文

posted @ 2018-08-15 10:06 waker_wang 阅读(464) 评论(1) 推荐(0)

大数据小项目之电视收视率企业项目12

摘要：因为环境不足，所以没有用flume收集日志，而是用的已经从别的渠道的日志日志截图：编写以下脚本，将收集的日志文件上传至HDFS MR清洗数据创建工程导入依赖库: Mapper类 Driver类打jar包上传jar包到虚拟机，执行命令 hadoop jar /home/wang/mrclic 阅读全文

posted @ 2018-08-15 09:50 waker_wang 阅读(417) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目11

摘要：sqoop数据迁移概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库工作机制将导入或导出阅读全文

posted @ 2018-08-15 09:08 waker_wang 阅读(362) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目10

摘要：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 Agent主要由:source,channel,sink三个组阅读全文

posted @ 2018-08-15 08:58 waker_wang 阅读(469) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目09--hive环境搭建

摘要：Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集，其中包括体积庞大，高速，以及各种由与日俱增的数据的集合。使用阅读全文

posted @ 2018-08-15 08:47 waker_wang 阅读(343) 评论(0) 推荐(0)

spark入门: wordcount-java

摘要：wordcount-java： pom.xml文件如下: 阅读全文

posted @ 2018-08-14 22:49 waker_wang 阅读(328) 评论(0) 推荐(0)

转发一个关于下载qq无损音乐的博客

摘要：直接考copy就能成功下载了 https://www.52pojie.cn/thread-767941-1-1.html（转发网址）阅读全文

posted @ 2018-08-14 14:03 waker_wang 阅读(1793) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目08--》MapReduce编写之Wordcount

摘要：编程规范（1）用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端) （2）Mapper的输入数据是KV对的形式（KV的类型可自定义）（3）Mapper的输出数据是KV对的形式（KV的类型可自定义）（4）Mapper中的业务逻辑写在map()方法中阅读全文

posted @ 2018-08-14 13:23 waker_wang 阅读(198) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目07

摘要：maven搭建（前提是在你的Windows电脑上有Java，并且能用）下图为maven官网（http://maven.apache.org/）安装 Maven 之前要求先确定你的 JDK 已经安装配置完成。Maven是 Apache 下的一个项目，我用的是3.5.2。使用本地的maven环境阅读全文

posted @ 2018-08-14 13:11 waker_wang 阅读(166) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目06

摘要：hadoop常用的命令 hdfs dfs -mkdir -p /user/wang/hadoop 递归创建目录 hdfs dfs -ls /user 查看/user下内容 hdfs dfs -ls -R /user 递归查看 hdfs dfs -help put hdfs dfs -put inde 阅读全文

posted @ 2018-08-14 12:56 waker_wang 阅读(151) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目05

摘要：通过hadoop自带的demo运行单词统计（测试）在家目录下操作：执行结果截图：阅读全文

posted @ 2018-08-14 12:51 waker_wang 阅读(220) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目04--完全分布式搭建

摘要：完全分布式搭建前边已经修改完ip了，那么现在就开始搭建完全分布式了 1、修改主机名 hostname（查看主机名） sudo nano /etc/hostname（修改主机名） 2、修改hosts文件 sudo nano /etc/hosts 添加格式为 IP + 主机名之后重启所有虚拟机，然后阅读全文

posted @ 2018-08-13 22:12 waker_wang 阅读(239) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目03

摘要：Yum的介绍 Yum 全称为 Yellow dog Updater, Modified，它是一个在线的软件安装命令。他能够从指定的服务器自动下载RPM包并且安装，可以自动处理依赖性关系，并且一次安装所有依赖的软体包，无须繁琐地一次次下载、安装。yum提供了查找、安装、删除某一个、一组甚至全部软件包阅读全文

posted @ 2018-08-13 21:18 waker_wang 阅读(396) 评论(1) 推荐(0)

大数据小项目之电视收视率企业项目02

摘要：接上上篇.......... 》》关闭防火墙 centos防火墙操作 [cnetos 6.5之前的版本] $>sudo service firewalld stop //停止服务 $>sudo service firewalld start //启动服务 $>sudo service firewa 阅读全文

posted @ 2018-08-12 22:50 waker_wang 阅读(227) 评论(0) 推荐(0)

大数据小项目之电视收视率企业项目01

摘要：一、VM安装（这个大家去百度吧....）二、centos安装版本：centos7 ’https://jingyan.baidu.com/article/a3aad71aa180e7b1fa009676.html（具体可以看这个） 1、安装好之后，始终用自己的用户名操作（这个很重要，因为如果在不同阅读全文

posted @ 2018-08-12 22:35 waker_wang 阅读(480) 评论(0) 推荐(0)

本地Navicat连接虚拟机MySQL

摘要：安装完MySQL后，使用mysql命令进去，然后执行以下命令 grant all privileges on hive_metadata.* to 'hive'@'%' identified by '123456'; grant all privileges on hive_metadata.* t 阅读全文

posted @ 2018-08-10 12:58 waker_wang 阅读(659) 评论(0) 推荐(0)

centos7安装MySQL

摘要：1）安装依赖 yum search libaio # 检索相关信息 yum install libaio # 安装依赖包 2）检查 MySQL 是否已安装 yum list installed | grep mysql 如果有，就先全部卸载，命令如下： yum -y remove mysql-lib 阅读全文

posted @ 2018-08-10 12:27 waker_wang 阅读(117) 评论(0) 推荐(0)

完全分布式时间同步

摘要：1.安装ntp:sudo yum install ntp(在每台机器上都安装） 2.执行sudo ntpdate time.nist.gov命令(在每台机器上都执行） 3.执行结果10 Aug 12:07:44 ntpdate[4471]: no server suitable for synchr 阅读全文

posted @ 2018-08-10 12:15 waker_wang 阅读(308) 评论(0) 推荐(0)

关于在namanode上编写脚本控制DataNode的...

摘要：脚本如下：（我的虚拟机名字分别为：wang201 wang 202 wang 203 wang 204） 1.在/usr/local/bin/下创建一个文件 touch xcall.sh 2.修改权限以及own :chown -R xxxx:xxxx xcall.sh chmod 777 xcall 阅读全文

posted @ 2018-08-10 11:20 waker_wang 阅读(265) 评论(0) 推荐(0)

分布式时间同步ntp安装

摘要：直接执行：sudo yum install ntp或者sudo -y install ntp 阅读全文

posted @ 2018-08-10 11:09 waker_wang 阅读(230) 评论(0) 推荐(0)

yum安装报错

摘要：检查了好久才知道原来是 sudo nano /etc/sysconfig/network-scripts/ifcfg-ens33 下的DNS配错了，改好之后，sudo service network restart 就ok了阅读全文

posted @ 2018-08-10 11:04 waker_wang 阅读(154) 评论(0) 推荐(0)

Hadoop HDFS

摘要：Hadoop主要有两个层次，即：加工/计算层(MapReduce)，以及存储层(Hadoop分布式文件系统,即HDFS)。 Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统，HDFS是高度容错以及使用低成本的硬件设计。 HDFS拥有超大型的数据量，并提供更阅读全文

posted @ 2018-08-02 19:22 waker_wang 阅读(159) 评论(0) 推荐(0)

08 2018 档案

公告