2017 年 11月随笔档案 - wangmeihong

Hive的Transform功能

摘要：官网的demo：使用MAP和REDUCE关键字是SELECT TRANSFORM关键字的别名，下面的等价代码阅读跟清洗一点： MAP中，SELECT TRANSFORM() 等价于关键字MAP REDUCE中， SELECT TRANSFORM() 等价于关键字 REDUCE ; CLUSTE 阅读全文

posted @ 2017-11-22 09:31 wangmeihong 阅读(1140) 评论(0) 推荐(0)

apache大数据生态圈相关 -avro

摘要：Apache Avro： Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具，Avro可以做到将数据进行序列化阅读全文

posted @ 2017-11-22 09:18 wangmeihong 阅读(520) 评论(0) 推荐(0)

spark代码的提交

摘要：第一种 spark-shell ，根据官网的example 统计词频：第一步： shell中新建一个脚本： vi wordCount.sh ；第二步：编写脚本：几点注意：第一，spark集群下core和momery都需要分配和释放，因此，调试程序时，建议master 用 local模式阅读全文

posted @ 2017-11-15 16:40 wangmeihong 阅读(1196) 评论(0) 推荐(0)

单位局域网内的vmware的网络配置

摘要：vmware提供4种模式： 1. 桥接模式（直接连接物理网络） 2. NAT模式（用于共享主机的IP地址） 3. 仅主机模式（与主机共享的专用网络） 4. 自定义模式（特定虚拟网络）如果自己的电脑在公网上，第一种方式即可。只是我的笔记本在单位的局域网内运行，所以需要价格IP地址设置在同一个网段才行阅读全文

posted @ 2017-11-13 11:13 wangmeihong 阅读(318) 评论(0) 推荐(0)

hive安装配置

摘要：前提：安装好mysql ，新建数据库hive，新建用户hive：hive ，并且允许远程登录和访问开始： <?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="co 阅读全文

posted @ 2017-11-10 13:39 wangmeihong 阅读(246) 评论(0) 推荐(0)

sparkshell中执行wordcount

摘要：scala> val textFile = sc.textFile("file:///home/hadoop/mooc_data/wc.txt")scala> val counts = textFile.flatMap(line => line.split(" ")).map(word => (wo 阅读全文

posted @ 2017-11-09 15:42 wangmeihong 阅读(1431) 评论(0) 推荐(0)

解决在IDEA中使用Maven和Scala新建项目没有自动产生src 以及spark的编译运行配置

摘要：今天在IDEA中使用Maven和Scala新建项目，没有自动产生src ，而且一直显示在下载文件，百度了一下，应该是国内的网速限制了到Maven的访问。第一种解决方案：在创建项目的这一步时,加一句下面的参数 name： archetypeCatalogvallue： internal 如图（懒得阅读全文

posted @ 2017-11-08 18:01 wangmeihong 阅读(5378) 评论(0) 推荐(0)

解决ubuntu下修改环境变量profile后报错，很多常用命令都用不了

摘要：今天用 vi /etc/profile 增加flume的环境变量，应该是这样的：结果没注意将冒号敲成了分号，还立即生效了，结果悲剧了，vi 命令用不了，很多命令用不了。好在有万能的百度和热心的程序员网友，解决办法：先用：查看path是否含有：/usr/local/sbin:/usr/loca 阅读全文

posted @ 2017-11-03 16:00 wangmeihong 阅读(1270) 评论(0) 推荐(0)

11 2017 档案

公告