随笔分类 -  Hadoop

摘要:1.原表没有设置主键,出现错误提示:ERROR tool.ImportTool: Error during import: No primary key could be found for table xxx. Please specify one with --split-by or perform a sequential import with '-m 1'提示说明的很清楚:在表xxx没有发现主键,使用--split-by指定一个column作为拆分字段或者在命令行上添加 ‘-m 1',为什么会出现这样的错误提示,我们需要了解一下Sqoop的并行导入机制:一般来 阅读全文
posted @ 2013-06-28 14:24 gerifeng 阅读(2775) 评论(0) 推荐(0)
摘要:1.Streaming简介Streaming工具允许用户使用非java的语言来编写map和reduce函数。Hadoop的Streaming使用Unix标准作为Hadoop和应用程序之间的接口,所以我们可以使用任何编程语言通过标准输入/输出来写MapReduce程序。详细的用法可以参考这篇博文: http://dongxicheng.org/mapreduce/hadoop-streaming-programming/。 接下举一个Python脚本编写的WordCount的例子:2.脚本程序Mapper:Reducer:注意脚本程序需要有足够的权限,使用命令:chmod a+x Mapper. 阅读全文
posted @ 2012-10-17 20:06 gerifeng 阅读(2625) 评论(7) 推荐(0)