摘要:
pig自带的pigstorage不能指定行分隔符,所以自己重写了一个简单的UDF类,可以指定列和行的分隔符,之前研究过的简单的,http://blog.csdn.net/ruishenh/article/details/12048067但是弊端大,所以这次重写一下。操作步骤打好包上传到服务器,gru... 阅读全文
摘要:
一、Mahout命令使用合成控制的数据集 synthetic_control.data 可以从 此处下载,总共由600行X60列double型的数据组成, 意思是有600个元组,每个元组是一个时间序列。1. 把数据拷到集群上,放到kmeans/目录下hadoop fs -mv synthetic_c... 阅读全文
摘要:
最近几天,在研究怎么样把日志中的IP地址转化成具体省份城市。希望写一个pig udfIP数据库采用的纯真IP数据库文件qqwry.dat,可以从http://www.cz88.net/下载。这里关键点在于怎么样读取这个文件,浪费了二天时间,现在把代码记录下来供和我遇到相同问题的朋友参考。pig sc... 阅读全文