摘要: 参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html Ambari 是什么 Ambari 的作用来就是创建、管理、监视 Hadoop 集群,但是这里的 Hadoop 是广义,指的是 Ha 阅读全文
posted @ 2017-05-22 14:46 天之涯0204 阅读(3346) 评论(1) 推荐(1) 编辑
摘要: SVN linux搭建svn服务器参考:http://www.cnblogs.com/chaichuan/p/3758173.htmlSubversion(SVN) 是一个开源的版本控制系統, 也就是说 Subversion 管理随着时间改变的数据。 这些数据放置在一个中央资料档案库 (reposi 阅读全文
posted @ 2017-05-20 10:22 天之涯0204 阅读(973) 评论(0) 推荐(0) 编辑
摘要: 定义 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途 阅读全文
posted @ 2017-05-04 17:19 天之涯0204 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 排序算法 内部排序 外部排序 内部排序:数据全部在内存中进行排序外部排序:数据量太大,不能一次在内存中进行排序,因此,在排序的过程中需要使用到外部存储介质 插入排序 直接插入排序 将一个数据插入到已经有序的序列中得到一个新的有序序列 思路:从第二个元素开始进行插入排序 希尔排序 将序列分成多个子序列 阅读全文
posted @ 2017-05-03 18:07 天之涯0204 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 全文检索 全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。 全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是 阅读全文
posted @ 2017-05-03 09:39 天之涯0204 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 Receiver 使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark Executor的内存中,然后Sp 阅读全文
posted @ 2017-05-02 15:46 天之涯0204 阅读(8523) 评论(0) 推荐(2) 编辑
摘要: 1、安装logstash,直接解压即可 测试logstash是否可以正常运行 只获取消息 2、编写logstash配置文件2、1在logstash目录下创建conf目录2、2在conf目录下创建文件logstash.conf,内容如下 logstash input: https://www.elas 阅读全文
posted @ 2017-05-02 14:55 天之涯0204 阅读(1386) 评论(0) 推荐(0) 编辑
摘要: flume配置文件 flume_to_kafka.conf kafka 1、启动kafka 2、创建spark topic 启动flume 测试是否可以正常消费到数据 代码实现 阅读全文
posted @ 2017-05-02 11:19 天之涯0204 阅读(1106) 评论(0) 推荐(0) 编辑
摘要: print():打印DStream中的前10行数据 saveAsTextFiles(prefix, [suffix]):保存成文本文件到prefix指定的目录下,后缀为suffix saveAsObjectFiles(prefix, [suffix]) :保存DStream数据为 SequenceF 阅读全文
posted @ 2017-04-28 17:41 天之涯0204 阅读(184) 评论(0) 推荐(0) 编辑
摘要: window(windowLength, slideInterval):返回窗口长度为windowLength,每隔slideInterval滑动一次的window DStream countByWindow(windowLength, slideInterval):返回窗口中元素的个数 reduc 阅读全文
posted @ 2017-04-28 15:18 天之涯0204 阅读(952) 评论(0) 推荐(0) 编辑