大数据学习——hive数仓DML和DDL操作
摘要:1 创建一个分区表 2 添加数据 3 增加一个分区 4添加数据 5 show partitions t_partition001; 6删除分区 alter table t_partition001 drop partition(country="Japan"); 7修改表名 8表增加一列 9 替换表
阅读全文
posted @
2019-01-16 11:42
o_0的园子
阅读(651)
推荐(0)
大数据学习——hive基本操作
摘要:1 建表 2 创建一个student.txt 添加数据 3 上传 hdfs dfs -put student.txt /user/hive/warehouse/student 4 select * from student; 5 通常不会通过put方式加载数据,而是通过load的方式添加数据 loa
阅读全文
posted @
2019-01-15 21:37
o_0的园子
阅读(490)
推荐(0)
大数据学习——hive使用
摘要:Hive交互shell bin/hive Hive JDBC服务 hive也可以启动为一个服务器,来对外提供 启动方式,(假如是在itcast01上): 启动为前台:bin/hiveserver2 启动为后台:nohup bin/hiveserver2 1>/var/log/hiveserver.l
阅读全文
posted @
2019-01-15 20:19
o_0的园子
阅读(322)
推荐(0)
大数据学习——hive安装部署
摘要:1上传压缩包 2 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C apps 3 重命名 mv apache-hive-1.2.1-bin hive 4 设置环境变量 vi /etc/profile expert HIVE_HOME=/root/apps/hi
阅读全文
posted @
2019-01-15 18:01
o_0的园子
阅读(290)
推荐(0)
大数据学习——日志分析
摘要:数据: login.log visit.log 实现代码: pom.xml 修改pom.xml<mainClass>com.cyf.LoginlogFormatMP</mainClass><mainClass>com.cyf.JoinWithIpMp</mainClass><mainClass>co
阅读全文
posted @
2019-01-09 22:47
o_0的园子
阅读(1902)
推荐(0)
大数据学习——mapreduce运营商日志增强
摘要:需求 数据 https://pan.baidu.com/s/1gPsQXVYSQEZ2OYek4HxK6A pom.xml 创建文件夹 并上传数据 hadoop fs -mkdir -p /json/input hadoop fs -put rating.json /json/input 运行 ha
阅读全文
posted @
2019-01-04 20:56
o_0的园子
阅读(450)
推荐(0)
大数据学习——mapreduce案例join算法
摘要:需求: 用mapreduce实现select order.orderid,order.pdtid,pdts.pdt_name,oder.amount from orderjoin pdtson order.pdtid=pdts.pdtid 数据: orders.txt pdts.txt pom.xm
阅读全文
posted @
2019-01-04 20:55
o_0的园子
阅读(369)
推荐(0)
大数据学习——mapreduce学习topN问题
摘要:求每一个订单中成交金额最大的那一笔 top1 数据 pom.xml 创建文件夹 hadoop fs -mkdir -p /top/input 上传数据 hadoop fs -put top.txt /top/input 运行 hadoop jar TopOne.jar cn.itcast.mapre
阅读全文
posted @
2019-01-04 20:55
o_0的园子
阅读(397)
推荐(0)
大数据学习——mapreduce共同好友
摘要:数据 commonfriends.txt pom.xml 运行 hadoop jar CommonFriendsStepOne.jar cn.itcast.mapreduce.index.CommonFriendsStepOne 生成结果 修改pom.xml文件 打包并上传 运行 hadoop ja
阅读全文
posted @
2019-01-04 20:54
o_0的园子
阅读(468)
推荐(0)
大数据学习——mapreduce倒排索引
摘要:数据 1 pom.xml 2 IndexStepOne.java 打包重命名并把该jar上传到hdfs 创建文件夹,并把a.txt b.txt c.txt传到该路径 hadoop fs -mkdir -p /index/input 运行 hadoop jar IndexStepOne.jar cn.
阅读全文
posted @
2019-01-04 20:53
o_0的园子
阅读(354)
推荐(0)
大数据学习——mapreduce汇总手机号上行流量下行流量总流量
摘要:新建一个maven项目 项目结构如下 pom.xml FlumSum.java 新建 /flowsum/input hadoop fs -mkdir -p /flowsum/input 把数据放在 /flowsum/input 目录下 hadoop fs -put 3.txt /flowsum/in
阅读全文
posted @
2019-01-04 15:19
o_0的园子
阅读(1384)
推荐(0)
大数据学习——mapreduce程序单词统计
摘要:项目结构 pom.xml文件 先建两个文件1.txt 2.txt 内容如下 1.txt 2.txt 在hdfs上创建文件夹 hadoop fs -mkdir -p /wordcount/input 把1.txt 2.txt放在/wordcount/input目录下 hadoop fs -put 1.
阅读全文
posted @
2019-01-03 22:48
o_0的园子
阅读(805)
推荐(0)
大数据学习——hadoop的RPC框架
摘要:项目结构 服务端代码 test-hadoop-rpc pom.xml 客户端代码 test-hadoop-rpc-client pom.xml
阅读全文
posted @
2019-01-03 22:47
o_0的园子
阅读(429)
推荐(0)
大数据学习——JAVA采集程序
摘要:1 需求 从外部购买数据,数据提供方会实时将数据推送到6台FTP服务器上,我方部署6台接口采集机来对接采集数据,并上传到HDFS中 提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10),每分钟生成一个文件(00.dat,01.data,02.dat,........)
阅读全文
posted @
2019-01-03 21:35
o_0的园子
阅读(832)
推荐(0)
大数据学习——点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上
摘要:点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明 点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分析 一般上传文件都是在凌晨24点操作,由于很多种类的业务数据都要在晚上进行传输,为了减轻服务器的压力
阅读全文
posted @
2019-01-03 21:34
o_0的园子
阅读(716)
推荐(0)
大数据学习——有两个海量日志文件存储在hdfs
摘要:有两个海量日志文件存储在hdfs上, 其中登陆日志格式:user,ip,time,oper(枚举值:1为上线,2为下线);访问之日格式为:ip,time,url,假设登陆日志中上下线信息完整,切同一上下线时间段内是用的ip唯一,计算访问日志中独立user数量最多的前10个url,用MapReduce
阅读全文
posted @
2019-01-03 21:21
o_0的园子
阅读(1244)
推荐(0)
大数据学习——hdfs客户端流式操作代码的实现
摘要:package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import org.junit.Tes...
阅读全文
posted @
2019-01-03 20:49
o_0的园子
阅读(464)
推荐(0)
大数据学习——hdfs客户端操作
摘要:package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.Before; import org.junit.Test; import jav...
阅读全文
posted @
2019-01-03 20:31
o_0的园子
阅读(251)
推荐(0)
大数据学习——下载集群根目录下的文件到E盘
摘要:代码如下: 此时会报空指针异常 修改后代码如下: 注意,出现以上的问题是没有配环境变量造成的 window下开发的说明 建议在linux下进行hadoop应用的开发,不会存在兼容性问题。如在window上做客户端应用开发,需要设置以下环境: A、用老师给的windows平台下编译的hadoop安装包
阅读全文
posted @
2019-01-03 19:32
o_0的园子
阅读(495)
推荐(0)
大数据学习——上传本地文件到集群根目录下
摘要:此时报错,权限不足: 修改后的代码(伪造一个root身份): 或者是运行时加一个参数: VM-arguements: -DHADOOP——USER_NAME=root
阅读全文
posted @
2019-01-03 19:12
o_0的园子
阅读(1407)
推荐(0)