摘要:1.local单机模式,结果xshell可见:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.6.0-hadoop2.4.0.jar 1002.... 阅读全文
Hadoop HDFS的常用命令
2016-01-24 21:10 by Mandylover, 498 阅读, 0 推荐, 收藏,
摘要:1.将目录/root/data/下的item.txt复制到HDFS下的/user/root下: hadoop fs -copyFromLocal /root/data/item.txt itemdata若使用mahout将文件输出到另一目录下,可用命令:./bin/mahout recommendi... 阅读全文
Spark简介
2016-01-23 22:15 by Mandylover, 328 阅读, 0 推荐, 收藏,
摘要:1. Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。2.Spark的特点: ○ 高可伸缩性 ○ 高容错○ 基于内存计算3.Spark的生态体系:BDAS ○ M... 阅读全文
Hadoop datanode无法启动的错误
2016-01-23 21:25 by Mandylover, 234 阅读, 0 推荐, 收藏,
摘要:在启动Hadoop分布式部署的过程中,发现datanode没有正常启动,查看了一下日志发现报错:java.io.IOException: Incompatible clusterIDs in /opt/hadoop-2.5/dfs/data: namenode clusterID = CID-adf... 阅读全文
kafka在虚拟机环境的优化
2016-01-19 20:47 by Mandylover, 842 阅读, 0 推荐, 收藏,
摘要:首先是,多磁盘的并发的问题。不管怎么说,虚拟机环境至少剥夺了单个kafka同时使用多个磁盘的优势。也就意味着,在同一个虚拟机,同一个topic,最好只有一partition;当然,不同topic之间partition如果同时生产-消费也会互相影响,但不一定会同时在高峰(同个topic一定)。构建较... 阅读全文
kafka的安装和使用
2016-01-19 20:19 by Mandylover, 232 阅读, 0 推荐, 收藏,
摘要:简单说kafka是一个高吞吐的分部式消息系统,并且提供了持久化。kafka的架构• producer:消息生存者• consumer:消息消费者• broker:kafka集群的server,负责处理消息读、写请求,存储消息• topic:消息队列/分类• Queue里面有生产者消费者模型• bro... 阅读全文
Strom的安装及使用
2016-01-19 19:56 by Mandylover, 372 阅读, 0 推荐, 收藏,
摘要:在使用storm之前,首先看zookeeper是否安装好单机版1.在node1上修改配置文件conf下的storm.yaml文件2.检查Java和Python的版本是否符合要求,运行java -version和python -version 版本至少在Java 6+,Python 2.6.6+以上3... 阅读全文
机器学习
2016-01-19 14:22 by Mandylover, 240 阅读, 0 推荐, 收藏,
摘要:机器学习包括三方面:协同过滤(主要用于推荐)、分类器和聚类(无监督学习)。1.协同过滤协同过滤是推荐系统中使用的技术• 简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯基于用户的协同过滤(基于用户的协同过滤算法 UserCF)简单讲就是,给用户推荐和他兴趣相似的其他用户喜欢... 阅读全文
Tomcat启动时为什么要配置CATALINA_HOME环境变量??
2016-01-17 16:46 by Mandylover, 2270 阅读, 1 推荐, 收藏,
摘要:CATALINA_HOME的值被设为Tomcat的安装目录,如果环境变量CATALINA_HOME已经存在,则通过这个环境变量调用bin目录下的“catalina.batstart”命令1.Tomcat启动时,需要查找CATALINA_HOME这个环境变量,如果在Tomcat的bin目录下调用 st... 阅读全文
sqoop的安装和使用
2016-01-13 21:01 by Mandylover, 1009 阅读, 0 推荐, 收藏,
摘要:在sqoop使用前,应先安装好hive和zookeeper,还要在一台虚拟机里安装好mysql1.先将zookeeper启动:zkServer.sh start,集群启动起来:start-all.sh2.启动mysql:service mysql start然后进入mysql的客户端:3.在wind... 阅读全文