随笔分类 -  大数据学习笔记

大数据学习笔记
摘要:一、Hive基本概念、安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spark: 2. 如何学习大数据技术 上课时候,认真听,勤做笔记; 遇到难理解的概念,马上记录下来; 课后 阅读全文
posted @ 2016-07-17 09:01 沙漏哟 阅读(175) 评论(0) 推荐(0)
摘要:7.16 一、回顾 二、HDFS Federation(联盟) Hadoop 2.2.0发布新特性 很多的大公司都在使用:BAT HDFS Federation + HDFS HA架构 互相隔开,但是数据存储共用 1、新特性介绍 ViewFs Guide 视图文件系统 HDFS Snapshots 阅读全文
posted @ 2016-07-16 09:28 沙漏哟 阅读(216) 评论(0) 推荐(0)
摘要:一、配置Linux (1)cat /etc/networks (2)cat /etc/sysconfig/network (3)vi /etc/udev/rules.d/70-persistent-net.rules eth1 改为eth0 (4)vi /etc/sysconfig/network- 阅读全文
posted @ 2016-07-11 15:32 沙漏哟 阅读(250) 评论(0) 推荐(0)
摘要:一、分布式集群安装1. Hadoop模式本地模式、伪分布模式、集群模式datanode 使用的机器上的磁盘,存储空间nodemanager使用的机器上的内存和CPU(计算和分析数据) 2. 搭建环境准备工作(1)克隆虚拟机,达到3台机器,分布式的架构即可重新搭建一个hadoop环境(2)克隆完成后, 阅读全文
posted @ 2016-07-10 21:14 沙漏哟 阅读(170) 评论(0) 推荐(0)
摘要:一、MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map()、reduce()、input、output5. 处理的数据放在input中、处理的结果放在output中6. MR程序>八股文7. MR在处理数据 阅读全文
posted @ 2016-07-10 21:13 沙漏哟 阅读(169) 评论(0) 推荐(0)
摘要:1. Hadoop 64位centos 下编译 hadoop 2.6.0 源码 2. 学习问题汇总 hadoop多次格式化后,导致datanode启动不了 3. HDFS Hadoop中NameNode存储的元数据记录和NameNode的启动过程 存储在HDFS上的文件,存储机制及数据安全性如何保证 阅读全文
posted @ 2016-07-07 16:57 沙漏哟 阅读(173) 评论(0) 推荐(0)
摘要:hadoop namenode -format多次格式化后,datanode启动不了 0.20.2版本解决方式:1、查看名称节点上(即在配置文件中配置的hadoop.tmp.dir参数路径)/usr/hadoop0.20.2/hadoop-huanghz/dfs/name/current/文件夹中V 阅读全文
posted @ 2016-07-05 10:54 沙漏哟 阅读(3624) 评论(0) 推荐(0)
摘要:一、MapReduce 1. mapreduce概念 2. mapreduce模板 3. 基于业务需求谢mr程序 4. wordcount程序编写 5. mapreduce shuffle 6. 阅读全文
posted @ 2016-07-03 16:42 沙漏哟 阅读(163) 评论(0) 推荐(0)
摘要:hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hadoop-01:8088/cluster 历史服务器可视化界面:http://beifeng-hadoo 阅读全文
posted @ 2016-07-03 09:54 沙漏哟 阅读(237) 评论(0) 推荐(0)
摘要:一、打包压缩 知识点: tar -zxvf -C PATH tar -jxvf tar -zcvf tar -jcvf tar:打包命令 -z 打包同时gzip压缩 -j 打包同时bzip2 -c 打包 -x 解压 -v 显示过程信息 -f 对普通文件进行操作 -C 指定解压路径 -t 查看包内容 阅读全文
posted @ 2016-07-02 18:10 沙漏哟 阅读(234) 评论(0) 推荐(0)
摘要:大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915BF.html 勤奋的男人和爱笑的女人运气都不会太差。 1. 什么是Hadoop 2. hadoop生 阅读全文
posted @ 2016-07-02 09:09 沙漏哟 阅读(260) 评论(0) 推荐(0)
摘要:linux下tar命令解压到指定的目录 :#tar zxvf /bbs.tar.zip -C /zzz/bbs //把根目录下的bbs.tar.zip解压到/zzz/bbs下,前提要保证存在/zzz/bbs这个目录 这个和cp命令有点不同,cp命令如果不存在这个目录就会自动创建这个目录!附:用tar 阅读全文
posted @ 2016-06-28 15:06 沙漏哟 阅读(1683) 评论(0) 推荐(0)
摘要:1. 1) 虚拟机的网卡用的是虚拟网卡 保存退出x或者 wq 2) vi /etc/sysconfig/network NETWORKING=yesHOSTNAME=beifeng-hadoop-01 关机: halt shoutdown -h now 重启:reboot 2. 从不用图形界面,只用 阅读全文
posted @ 2016-06-26 18:21 沙漏哟 阅读(221) 评论(0) 推荐(0)
摘要:一、磁盘管理 Linux添加新硬盘、分区、格式化、自动挂载 http://lxsym.blog.51cto.com/1364623/321643 给Linux系统新增加一块硬盘 http://www.linuxidc.com/Linux/2011-02/31868.htm 二、压缩和解压 linux 阅读全文
posted @ 2016-06-26 10:42 沙漏哟 阅读(206) 评论(0) 推荐(0)
摘要:一、 NAT模式网络访问 (1)在linux中输入命令ifconfig查看网络信息 (2)在mac中输入命令ifconfig查看网络信息 发现多了两个vmnet1,vmnet8接口,玩过VMware的都知道这是虚拟网络,vmnet1是host-only的方式,vmnet8是NAT的方式。 (3)查看 阅读全文
posted @ 2016-06-25 18:58 沙漏哟 阅读(436) 评论(0) 推荐(0)
摘要:一、实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统 www.netcraft.com 二、推荐书籍 1. 《Hadoop权威指南》 1-3版: Hadoop1系列 4版(目前仅有英文原版):Hadoop2系列 yarn高可用性,HA 2. 《Hive 阅读全文
posted @ 2016-06-25 10:18 沙漏哟 阅读(184) 评论(0) 推荐(0)
摘要:abc 阅读全文
posted @ 2016-06-24 18:18 沙漏哟 阅读(124) 评论(0) 推荐(0)
摘要:一、Linux基本环境 1. Linux常见版本及VMware虚拟机安装Linux系统 2. 虚拟机网络配置(IP地址、主机名、防火墙) 3. 文件基本命令操作 4. 四大远程连接工具使用 二、Linux基础命令 1. 用户和组创建、删除、更改和授权 2. 文件/目录创建、删除、移动和拷贝重命名 3 阅读全文
posted @ 2016-06-24 18:17 沙漏哟 阅读(162) 评论(0) 推荐(0)
摘要:一、Hadoop 前置课程 1. Linux系统,基本命令 2. Java语言,JavaSE相关知识 3. MySQL基本的DML和DDL SQL on Hadoop 阅读全文
posted @ 2016-06-24 18:04 沙漏哟 阅读(157) 评论(0) 推荐(0)
摘要:Hive 接口介绍(Web UI/JDBC)实验简介本次实验学习 Hive 的两种接口:Web UI 以及 JDBC。一、实验环境说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面... 阅读全文
posted @ 2015-07-05 19:25 沙漏哟 阅读(7302) 评论(0) 推荐(0)