谷雨· - 博客园

2015年1月

摘要： def hello(name : String = "ChinaSpark") : String = { //public static String hello(String name)={ return xxxxx } return "Hello : " + name } scala的方法是都是以def开头返回值写在后面参数名：参数类型之间有冒号和jav... 阅读全文

posted @ 2015-01-04 11:39 谷雨· 阅读(173) 评论(0) 推荐(0)

2014年6月

字符编码

摘要：刚刚因为一个编码问题被大神鄙视了，特地整理一下。看来自己基础还都带提高。首先说计算机为啥需要编码呢？因为计算机只能存储二进制数据，要表示数字还好说那表示字母就会有问题所以需要编码scala中char类型的默认编码是unicode 采用双字节。 ‘1’ 的编码是 49字符，字节和编码[原创... 阅读全文

posted @ 2014-06-27 14:43 谷雨· 阅读(232) 评论(0) 推荐(0)

2013年10月

mahout 使用

摘要：最近在做mahout源码调用的时候，发现一个参数：startPhase和endPhase,这两个参数是什么意思呢？比如运行RecommenderJob时，可以看到10个MR任务，所以猜测是否是一个phase代表一个MR？带着这样的疑问进行了实验：$Hadoop_HOME/bin/hadoop jar mahout-0.7/core/target/mahout-core-0.7-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input input/intro.csv --output date1129/cf00 - 阅读全文

posted @ 2013-10-08 11:29 谷雨· 阅读(1191) 评论(0) 推荐(0)

2013年9月

cloudera Manager使用总结

摘要：最近在用cloudera Manager来在几个虚拟机上进行hadoop 的安装，总结一下遇到的问题。1 似乎没有 start-balancer.sh 命令似乎安装包中没有这个命令怎么做集群的负载均衡还是一个问题。阅读全文

posted @ 2013-09-27 18:18 谷雨· 阅读(4471) 评论(0) 推荐(0)

HDFS 操作命令总结

摘要： 1 hadoop fs 这个是FS shell 提供的。上传下载文件查看文件大小改变文件权限都用这个命令。具体命令的用法可以到这个文档来查询 http://hadoop.apache.org/docs/r0.19.1/cn/hdfs_shell.html2 hadoop dfsadmin (在CH4版本中这个命令改为 hdfs dfsadmin ) 注意设置文件夹大小的命令。查询文件夹是否设置了大小限制的命令为 hadoop fs -count -q /user/xxx3 fsck命令不过现在还没有感觉这个命令有什么特殊的地方。4start-balancer.sh... 阅读全文

posted @ 2013-09-27 18:06 谷雨· 阅读(493) 评论(0) 推荐(0)

基于hive的日志分析系统

摘要：转自 http://www.cppblog.com/koson/archive/2010/07/19/120773.html hive简介 hive是一个基于hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用HQL（类SQL）语言对这些数据进行自动化管理和处理。我们可以把hive中海量结构化数据看成一个个的表，而实际上这些数据是分布式存储在HDFS中的。Hive经过对语句进行解析和转换，最终生成一系列基于hadoop的map/reduce任务，通过执行这些任务完成数据处理。H... 阅读全文

posted @ 2013-09-26 16:10 谷雨· 阅读(1910) 评论(0) 推荐(0)

hive 中的正则表达式

摘要：背景：前几天拿来apache日志，用hive的正则进行匹配，发现匹配出来的字段算是NULL，但是我用RegexBuddy工具显示能够匹配的到啊！例子如下(我拿正常的apache日志来比较，我的apache日志格式被更改过)1、apache日志格式：127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 23262、正则表达式：([^ ]*) ([^ ]*) ([^ ]*) (-|\[[^\]]*\]) ([^ \"]*|\"[^\"]*\& 阅读全文

posted @ 2013-09-26 16:04 谷雨· 阅读(27971) 评论(0) 推荐(0)

hadoop 用户

摘要：上篇文章说过，hadoop实际上就是就是一个liunx虚拟机，它的文件操作命令同linux，而它的用户呢？它的用户实际上就是linux主机的用户。这里我们做的例子就是：新建一个liunx用户，并为该linux用户授权hadoop相关权限。1、以root身份登陆，新建一个linux用户，用户名为hauser，并授予相关权限 useradd hauser —–新建linux用户 hauser passwd hadoop —为新建的用户hauser设置初始密码 chown -R hadoop:hauser /opt/hadoop —将hadoop的相关操作权限授予hauser hadoop ... 阅读全文

posted @ 2013-09-25 14:28 谷雨· 阅读(1667) 评论(0) 推荐(0)

Java中设置classpath、path、JAVA_HOME的作用

摘要： hinking in Java对classpath作用的解释 Java 解释器的工作程序如下：首先，它找到环境变量CLASSPATH（将Java 或者具有Java 解释能力的工具——如浏览器——安装到机器中时，通过操作系统进行设定）。CLASSPATH 包含了一个或多个目录，它们作为一种特殊的“根”使用，从这里展开对.class 文件的搜索。从那个根开始，解释器会寻找包名，并将每个点号（句点）替换成一个斜杠，从而生成从CLASSPATH 根开始的一个路径名（所以package foo.bar.baz 会变成foo\bar\baz 或者foo/bar/baz；具体是正斜杠还是反斜杠由操作系.. 阅读全文

posted @ 2013-09-23 12:30 谷雨· 阅读(113833) 评论(2) 推荐(7)

2013年8月

排序

摘要： 1 冒泡排序冒泡排序算法的运作如下: 分为降序和升序排序比较相邻的元素。如果第一个比第二个大，就交换他们两个。对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。在这一点，最后的元素应该会是最大的数。针对所有的元素重复以上的步骤，除了最后一个。持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。升序排序排序... 阅读全文

posted @ 2013-08-31 19:56 谷雨· 阅读(355) 评论(0) 推荐(1)

公告