随笔分类 - pig
about pig
摘要:基础概念: relation bag tuple field data 关系(relation) = 包(bag) 一个包是一个元组(tuple)的集合,在pig中用{}扩起来表示一个包 一个元组(tuple)是若干个字段的有序集合(order set),在pig的数据结构中,用()扩起来...
阅读全文
摘要:问题:比如查询一个用户连续登陆天数超过7天的用户,或者查询连续在7天的某个时间段登陆的用户。 网上查询sql的语句的用法,对于hive来说也可以试试,查询词"SQL 连续天数查询" 如果使用hadoop如何解决?? 思路(以连续N天登陆为例): 1、计算出每天登陆的用户集合 1、使...
阅读全文
摘要:hadoop fs列出所有的命令hadoop fs -help ls列出某个命令的详细信息hadoop dfs -mkdir /data/weblogshadoop dfs -mkdir /data/dir1 /data/dir2 ...创建文件夹,可以递归创建,可同时创建多个目录echo "Hel...
阅读全文
摘要:一个练习:1、student表1:zhangsan:boy:12:compute3:lisi:boy:32:math2:xiaoli:girl:23:meish模式:A = load 'student' using PigStorage(':') as (sno:chararray,sname:ch...
阅读全文
摘要:可以作为一个随身参考1、更简单的挖掘大规模数据集而发明。可使用用户定义语言UDF进行修改运行pig脚本 pig script.piggrunt自动补全机制 tab键 创建autocomplete文件,常用单词或文件路径 quit退出2、示例 计算年度最高气温 --表示注释1)records = LO...
阅读全文
摘要:Mapreduce 模式中的 Pig对于 MapReduce 模式,必须首先确保 Hadoop 正在运行。要做到这一点,最简单的方法是在 Hadoop 文件系统树的根上执行文件列表操作,如 清单 3 所示。清单 3. 测试 Hadoop 可用性$ hadoop dfs -ls /Found 3 it...
阅读全文
摘要:Pig Latin 是一个相对简单的语言,它可以执行语句。一调语句 就是一个操作,它需要输入一些内容(比如代表一个元组集的包),并发出另一个包作为其输出。一个包 就是一个关系,与表类似,您可以在关系数据库中找到它(其中,元组代表行,并且每个元组都由字段组成)。用 Pig Latin 编写的脚本往往遵...
阅读全文
摘要:使用 Apache Pig 从大数据集中获得所需的信息Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言,并在...
阅读全文
摘要:1、Working with UDF(user defined function) pig能够支持两种类型的UDFs:eval和load/store, 其中load/store的自定义函数主要是用来加载和保存特定的数据格式; eval自定义函数主要用来进行常规的数据转换。1.1 eval 如...
阅读全文
摘要:1、练习 首先编写两个数据文件A: 0,1,2 1,3,4 数据文件B: 0,5,2 1,7,8 上传到HDFS对应目录/input目录下2、运行pig ,加载A和B 加载数据A:使用指定的分隔符, grunt> a = load '/input/A' using PigStora...
阅读全文
摘要:1、在pig下载的安装包,解压完成了之后,有一个tutorial目录,我们使用里面的数据来开始pig学习。如果tutorial目录下没有存在pigtutorial.tar.gz文件的话,那么需要使用ant来编译出这个文件 如果没有ant,见分类linux下的ant安装2、进入tutorial目录,...
阅读全文
摘要:1、pig安装 1)解压,重命名、设置环境变量,同hadoop 2)编辑文件$PIG_HOME/conf/pig.properties,增加两行如下内容 fs.default.name=hdfs://hadoop:9000 mapred.job.tracker=hadoop:9001...
阅读全文
浙公网安备 33010602011771号