摘要: Dijkstra算法1.定义概览Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法,在很多专业课程中都作为基本内容有详细的介绍,如数据结构,图论... 阅读全文
posted @ 2015-07-18 19:17 白开水加糖 阅读(356) 评论(0) 推荐(0)
摘要: 特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 特征的定义 至今为止特征没有万能和精确的定义。特征的精确定义往往由问题或者应用类型决... 阅读全文
posted @ 2015-07-18 15:10 白开水加糖 阅读(702) 评论(0) 推荐(0)
摘要: 看hive目录下就可以了,程序在hdfs里创建一个hive的大文件夹,相当于数据库吧。上面就是一个完整的利用hive来做单词统计,其中的优劣也能看出一点。 阅读全文
posted @ 2015-07-15 10:35 白开水加糖 阅读(476) 评论(0) 推荐(0)
摘要: PigPig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以非常高效的处理其需要做的,通过直接操作Pig查询可以节 省大量的劳动和时间。当你想在你的数据上... 阅读全文
posted @ 2015-07-15 09:35 白开水加糖 阅读(2107) 评论(0) 推荐(0)
摘要: ZooKeeper 是什么? ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop)、蜜蜂(Hive)、小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei等项目中都采用到了 Zookeeper。ZooKeeper... 阅读全文
posted @ 2015-07-14 22:00 白开水加糖 阅读(288) 评论(0) 推荐(0)
摘要: 1.什么是分布式文件系统?管理网络中跨多台计算机存储的文件系统称为分布式文件系统。2.为什么需要分布式文件系统了?原因很简单,当数据集的大小超过一台独立物理计算机的存储能力时候,就有必要对它进行分区(partition)并存储到若干台单独计算机上。3.分布式系统比传统的文件的系统更加复杂因为分布式文... 阅读全文
posted @ 2015-07-14 21:06 白开水加糖 阅读(549) 评论(0) 推荐(0)
摘要: Hive 学习记录Hive介绍:Hive 是起源于Facebook,使得Hadoop进行SQL查询成为可能,进而使得非程序员也可以进进行对其使用;它是一种数据仓库工具,将结构化的数据文件 映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。其优点是学习... 阅读全文
posted @ 2015-07-14 21:03 白开水加糖 阅读(243) 评论(0) 推荐(0)
摘要: Mapreduce初析 Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。 我们要学习的就是这个计算模型的运行规则。在... 阅读全文
posted @ 2015-07-14 14:18 白开水加糖 阅读(462) 评论(0) 推荐(0)
摘要: 阅读目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Rando... 阅读全文
posted @ 2015-07-14 10:53 白开水加糖 阅读(617) 评论(0) 推荐(0)
摘要: 决策树决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。决策... 阅读全文
posted @ 2015-07-14 10:28 白开水加糖 阅读(654) 评论(0) 推荐(0)