大数据学习 - 随笔分类(第4页) - o_0的园子

大数据学习——hive数仓DML和DDL操作

摘要：1 创建一个分区表 2 添加数据 3 增加一个分区 4添加数据 5 show partitions t_partition001; 6删除分区 alter table t_partition001 drop partition(country="Japan"); 7修改表名 8表增加一列 9 替换表阅读全文

posted @ 2019-01-16 11:42 o_0的园子阅读(651) 评论(0) 推荐(0)

大数据学习——hive基本操作

摘要：1 建表 2 创建一个student.txt 添加数据 3 上传 hdfs dfs -put student.txt /user/hive/warehouse/student 4 select * from student; 5 通常不会通过put方式加载数据，而是通过load的方式添加数据 loa 阅读全文

posted @ 2019-01-15 21:37 o_0的园子阅读(490) 评论(0) 推荐(0)

大数据学习——hive使用

摘要：Hive交互shell bin/hive Hive JDBC服务 hive也可以启动为一个服务器，来对外提供启动方式，（假如是在itcast01上）：启动为前台：bin/hiveserver2 启动为后台：nohup bin/hiveserver2 1>/var/log/hiveserver.l 阅读全文

posted @ 2019-01-15 20:19 o_0的园子阅读(322) 评论(0) 推荐(0)

大数据学习——hive安装部署

摘要：1上传压缩包 2 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C apps 3 重命名 mv apache-hive-1.2.1-bin hive 4 设置环境变量 vi /etc/profile expert HIVE_HOME=/root/apps/hi 阅读全文

posted @ 2019-01-15 18:01 o_0的园子阅读(290) 评论(0) 推荐(0)

大数据学习——日志分析

摘要：数据： login.log visit.log 实现代码： pom.xml 修改pom.xml<mainClass>com.cyf.LoginlogFormatMP</mainClass><mainClass>com.cyf.JoinWithIpMp</mainClass><mainClass>co 阅读全文

posted @ 2019-01-09 22:47 o_0的园子阅读(1902) 评论(0) 推荐(0)

大数据学习——mapreduce运营商日志增强

摘要：需求数据 https://pan.baidu.com/s/1gPsQXVYSQEZ2OYek4HxK6A pom.xml 创建文件夹并上传数据 hadoop fs -mkdir -p /json/input hadoop fs -put rating.json /json/input 运行 ha 阅读全文

posted @ 2019-01-04 20:56 o_0的园子阅读(450) 评论(1) 推荐(0)

大数据学习——mapreduce案例join算法

摘要：需求：用mapreduce实现select order.orderid,order.pdtid,pdts.pdt_name,oder.amount from orderjoin pdtson order.pdtid=pdts.pdtid 数据： orders.txt pdts.txt pom.xm 阅读全文

posted @ 2019-01-04 20:55 o_0的园子阅读(369) 评论(0) 推荐(0)

大数据学习——mapreduce学习topN问题

摘要：求每一个订单中成交金额最大的那一笔 top1 数据 pom.xml 创建文件夹 hadoop fs -mkdir -p /top/input 上传数据 hadoop fs -put top.txt /top/input 运行 hadoop jar TopOne.jar cn.itcast.mapre 阅读全文

posted @ 2019-01-04 20:55 o_0的园子阅读(397) 评论(0) 推荐(0)

大数据学习——mapreduce共同好友

摘要：数据 commonfriends.txt pom.xml 运行 hadoop jar CommonFriendsStepOne.jar cn.itcast.mapreduce.index.CommonFriendsStepOne 生成结果修改pom.xml文件打包并上传运行 hadoop ja 阅读全文

posted @ 2019-01-04 20:54 o_0的园子阅读(468) 评论(0) 推荐(0)

大数据学习——mapreduce倒排索引

摘要：数据 1 pom.xml 2 IndexStepOne.java 打包重命名并把该jar上传到hdfs 创建文件夹，并把a.txt b.txt c.txt传到该路径 hadoop fs -mkdir -p /index/input 运行 hadoop jar IndexStepOne.jar cn. 阅读全文

posted @ 2019-01-04 20:53 o_0的园子阅读(354) 评论(0) 推荐(0)

大数据学习——mapreduce汇总手机号上行流量下行流量总流量

摘要：新建一个maven项目项目结构如下 pom.xml FlumSum.java 新建 /flowsum/input hadoop fs -mkdir -p /flowsum/input 把数据放在 /flowsum/input 目录下 hadoop fs -put 3.txt /flowsum/in 阅读全文

posted @ 2019-01-04 15:19 o_0的园子阅读(1384) 评论(1) 推荐(0)

大数据学习——mapreduce程序单词统计

摘要：项目结构 pom.xml文件先建两个文件1.txt 2.txt 内容如下 1.txt 2.txt 在hdfs上创建文件夹 hadoop fs -mkdir -p /wordcount/input 把1.txt 2.txt放在/wordcount/input目录下 hadoop fs -put 1. 阅读全文

posted @ 2019-01-03 22:48 o_0的园子阅读(805) 评论(0) 推荐(0)

大数据学习——hadoop的RPC框架

摘要：项目结构服务端代码 test-hadoop-rpc pom.xml 客户端代码 test-hadoop-rpc-client pom.xml 阅读全文

posted @ 2019-01-03 22:47 o_0的园子阅读(429) 评论(0) 推荐(0)

大数据学习——JAVA采集程序

摘要：1 需求从外部购买数据，数据提供方会实时将数据推送到6台FTP服务器上，我方部署6台接口采集机来对接采集数据，并上传到HDFS中提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10)，每分钟生成一个文件（00.dat,01.data,02.dat,........）阅读全文

posted @ 2019-01-03 21:35 o_0的园子阅读(832) 评论(0) 推荐(0)

大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上

摘要：点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上 1需求说明点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上 2需求分析一般上传文件都是在凌晨24点操作，由于很多种类的业务数据都要在晚上进行传输，为了减轻服务器的压力阅读全文

posted @ 2019-01-03 21:34 o_0的园子阅读(716) 评论(0) 推荐(0)

大数据学习——有两个海量日志文件存储在hdfs

摘要：有两个海量日志文件存储在hdfs上，其中登陆日志格式：user，ip，time，oper（枚举值：1为上线，2为下线）；访问之日格式为：ip，time，url，假设登陆日志中上下线信息完整，切同一上下线时间段内是用的ip唯一，计算访问日志中独立user数量最多的前10个url，用MapReduce 阅读全文

posted @ 2019-01-03 21:21 o_0的园子阅读(1244) 评论(0) 推荐(0)

大数据学习——hdfs客户端流式操作代码的实现

摘要：package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import org.junit.Tes... 阅读全文

posted @ 2019-01-03 20:49 o_0的园子阅读(464) 评论(0) 推荐(0)

大数据学习——hdfs客户端操作

摘要：package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.Before; import org.junit.Test; import jav... 阅读全文

posted @ 2019-01-03 20:31 o_0的园子阅读(251) 评论(0) 推荐(0)

大数据学习——下载集群根目录下的文件到E盘

摘要：代码如下：此时会报空指针异常修改后代码如下：注意，出现以上的问题是没有配环境变量造成的 window下开发的说明建议在linux下进行hadoop应用的开发，不会存在兼容性问题。如在window上做客户端应用开发，需要设置以下环境： A、用老师给的windows平台下编译的hadoop安装包阅读全文

posted @ 2019-01-03 19:32 o_0的园子阅读(495) 评论(0) 推荐(0)

大数据学习——上传本地文件到集群根目录下

摘要：此时报错，权限不足：修改后的代码（伪造一个root身份）：或者是运行时加一个参数： VM-arguements： -DHADOOP——USER_NAME=root 阅读全文

posted @ 2019-01-03 19:12 o_0的园子阅读(1407) 评论(0) 推荐(0)

随笔分类 - 大数据学习