11 2017 档案

摘要:官网的demo: 使用MAP和REDUCE关键字是SELECT TRANSFORM关键字的别名,下面的等价代码阅读跟清洗一点: MAP中,SELECT TRANSFORM() 等价于 关键字MAP REDUCE中, SELECT TRANSFORM() 等价于 关键字 REDUCE ; CLUSTE 阅读全文
posted @ 2017-11-22 09:31 wangmeihong 阅读(1140) 评论(0) 推荐(0)
摘要:Apache Avro: Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具,Avro可以做到将数据进行序列化 阅读全文
posted @ 2017-11-22 09:18 wangmeihong 阅读(520) 评论(0) 推荐(0)
摘要:第一种 spark-shell ,根据官网的example 统计词频: 第一步: shell中新建一个脚本: vi wordCount.sh ; 第二步: 编写脚本: 几点注意 : 第一,spark集群下core和momery都需要分配和释放,因此,调试程序时,建议master 用 local模式 阅读全文
posted @ 2017-11-15 16:40 wangmeihong 阅读(1196) 评论(0) 推荐(0)
摘要:vmware提供4种模式: 1. 桥接模式(直接连接物理网络) 2. NAT模式(用于共享主机的IP地址) 3. 仅主机模式(与主机共享的专用网络) 4. 自定义模式(特定虚拟网络) 如果自己的电脑在公网上,第一种方式即可。只是我的笔记本在单位的局域网内运行,所以需要价格IP地址设置在同一个网段才行 阅读全文
posted @ 2017-11-13 11:13 wangmeihong 阅读(318) 评论(0) 推荐(0)
摘要:前提: 安装好mysql ,新建数据库hive,新建用户hive:hive ,并且允许远程登录和访问 开始: <?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="co 阅读全文
posted @ 2017-11-10 13:39 wangmeihong 阅读(246) 评论(0) 推荐(0)
摘要:scala> val textFile = sc.textFile("file:///home/hadoop/mooc_data/wc.txt")scala> val counts = textFile.flatMap(line => line.split(" ")).map(word => (wo 阅读全文
posted @ 2017-11-09 15:42 wangmeihong 阅读(1431) 评论(0) 推荐(0)
摘要:今天在IDEA中使用Maven和Scala新建项目,没有自动产生src ,而且一直显示在下载文件,百度了一下,应该是国内的网速限制了到Maven的访问。 第一种解决方案: 在创建项目的这一步时,加一句下面的参数 name: archetypeCatalogvallue: internal 如图(懒得 阅读全文
posted @ 2017-11-08 18:01 wangmeihong 阅读(5378) 评论(0) 推荐(0)
摘要:今天用 vi /etc/profile 增加flume的环境变量,应该是这样的: 结果没注意将冒号敲成了分号,还立即生效了,结果悲剧了,vi 命令用不了,很多命令用不了。 好在有万能的百度和热心的程序员网友,解决办法: 先用: 查看path是否含有:/usr/local/sbin:/usr/loca 阅读全文
posted @ 2017-11-03 16:00 wangmeihong 阅读(1270) 评论(0) 推荐(0)