07 2015 档案

该文被密码保护。
posted @ 2015-07-31 19:50 白开水加糖 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-31 19:48 白开水加糖 阅读(1) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-31 19:47 白开水加糖 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-31 19:46 白开水加糖 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-31 19:44 白开水加糖 阅读(1) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-22 20:18 白开水加糖 阅读(2) 评论(0) 推荐(0)
摘要:最近在做ETL的项目,其中肯定要有数据,才能在各个工具之间抽取、转存、加载。按照天亮爬虫项目上的讲解,对网易之家的贷款机构进行了抓取。大致模块分为四部分:抓取模块、实体类、工具类、控制类。现在把相关的代码大致记录一遍,以防遗忘。首先定义一个定义两个工具类,第一个工具类负责将将后期抓取的数据写入到一个... 阅读全文
posted @ 2015-07-20 15:16 白开水加糖 阅读(2841) 评论(4) 推荐(0)
摘要:一、原理讲解 实现这种功能的关键技术叫做"感知哈希算法"(Perceptual Hash Algorithm), 意思是为图片生成一个指纹(字符串格式), 两张图片的指纹越相似, 说明两张图片就越相似. 但关键是如何根据图片计算出"指纹"呢? 下面用最简单的步骤来说明一下原理: 《1》、第一步... 阅读全文
posted @ 2015-07-19 21:30 白开水加糖 阅读(2472) 评论(1) 推荐(1)
摘要:Dijkstra算法1.定义概览Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法,在很多专业课程中都作为基本内容有详细的介绍,如数据结构,图论... 阅读全文
posted @ 2015-07-18 19:17 白开水加糖 阅读(362) 评论(0) 推荐(0)
摘要:特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 特征的定义 至今为止特征没有万能和精确的定义。特征的精确定义往往由问题或者应用类型决... 阅读全文
posted @ 2015-07-18 15:10 白开水加糖 阅读(712) 评论(0) 推荐(0)
摘要:看hive目录下就可以了,程序在hdfs里创建一个hive的大文件夹,相当于数据库吧。上面就是一个完整的利用hive来做单词统计,其中的优劣也能看出一点。 阅读全文
posted @ 2015-07-15 10:35 白开水加糖 阅读(479) 评论(0) 推荐(0)
摘要:PigPig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以非常高效的处理其需要做的,通过直接操作Pig查询可以节 省大量的劳动和时间。当你想在你的数据上... 阅读全文
posted @ 2015-07-15 09:35 白开水加糖 阅读(2115) 评论(0) 推荐(0)
摘要:ZooKeeper 是什么? ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop)、蜜蜂(Hive)、小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei等项目中都采用到了 Zookeeper。ZooKeeper... 阅读全文
posted @ 2015-07-14 22:00 白开水加糖 阅读(293) 评论(0) 推荐(0)
摘要:1.什么是分布式文件系统?管理网络中跨多台计算机存储的文件系统称为分布式文件系统。2.为什么需要分布式文件系统了?原因很简单,当数据集的大小超过一台独立物理计算机的存储能力时候,就有必要对它进行分区(partition)并存储到若干台单独计算机上。3.分布式系统比传统的文件的系统更加复杂因为分布式文... 阅读全文
posted @ 2015-07-14 21:06 白开水加糖 阅读(552) 评论(0) 推荐(0)
摘要:Hive 学习记录Hive介绍:Hive 是起源于Facebook,使得Hadoop进行SQL查询成为可能,进而使得非程序员也可以进进行对其使用;它是一种数据仓库工具,将结构化的数据文件 映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。其优点是学习... 阅读全文
posted @ 2015-07-14 21:03 白开水加糖 阅读(246) 评论(0) 推荐(0)
摘要:Mapreduce初析 Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。 我们要学习的就是这个计算模型的运行规则。在... 阅读全文
posted @ 2015-07-14 14:18 白开水加糖 阅读(465) 评论(0) 推荐(0)
摘要:阅读目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Rando... 阅读全文
posted @ 2015-07-14 10:53 白开水加糖 阅读(619) 评论(0) 推荐(0)
摘要:决策树决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。决策... 阅读全文
posted @ 2015-07-14 10:28 白开水加糖 阅读(655) 评论(0) 推荐(0)
摘要:很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题,同时讨论早期搜索引擎关于结果页面重要性评价算法的... 阅读全文
posted @ 2015-07-13 21:44 白开水加糖 阅读(4397) 评论(0) 推荐(0)
摘要:逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇, 主要关注逻辑回归算法的数学模型和参数求解方法,最后也会简单讨论下逻辑回归和贝叶斯分类的关系,以及在多分类问题上的推广。逻辑回归... 阅读全文
posted @ 2015-07-13 14:30 白开水加糖 阅读(2568) 评论(0) 推荐(0)
摘要:数学之美--上对人工神经网络的通俗解释很形象:0. 分类神经网络最重要的用途是分类,为了让大家对分类有个直观的认识,咱们先看几个例子:垃圾邮件识别:现在有一封电子邮件,把出现在里面的所有词汇提取出来,送进一个机器里,机器需要判断这封邮件是否是垃圾邮件。疾病判断:病人到医院去做了一大堆肝功、尿检测验,... 阅读全文
posted @ 2015-07-12 16:39 白开水加糖 阅读(8660) 评论(1) 推荐(0)
该文被密码保护。
posted @ 2015-07-12 16:00 白开水加糖 阅读(3) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-11 17:00 白开水加糖 阅读(3) 评论(0) 推荐(0)
摘要:说来也惭愧,我是最近开始用github,小白一个,昨天研究了一个下午。终于可以上传了,所以今天写点,一来分享是自己的一些经验,二来也是做个记录,万一哪天又不记得了:) 废话不多说,直接来,这次主要介绍的是windows下的安装和使用。 【第一步】建立先仓库 第一步的话看一般的提示就知道了,在gith 阅读全文
posted @ 2015-07-10 19:57 白开水加糖 阅读(359) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-10 16:14 白开水加糖 阅读(3) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-10 15:07 白开水加糖 阅读(1) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-10 11:06 白开水加糖 阅读(2) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-09 21:12 白开水加糖 阅读(2) 评论(0) 推荐(0)
摘要:协同过滤是推荐算法中最基本的算法,主要分为基于用户的协同过滤算法和基于物品的协同过滤算法。这篇文章主要介绍基于用户的协同过滤算法,简单来说,要给用户u作推荐,那么只要找出那些和u之前的行为类似的用户,即和u比较像的用户,把他们的行为推荐给用户u即可。所以基于用户的系统过滤算法包括两个步骤:1)找到和... 阅读全文
posted @ 2015-07-09 20:30 白开水加糖 阅读(449) 评论(0) 推荐(0)
摘要:基于物品的协同过滤算法(ItemCF)是业界应用最多的算法,主要思想是利用用户之前有过的行为,给用户推荐和之前物品类似的物品。基于物品的协同过滤算法主要分为两步:1)计算物品之间的相似度。2)根据物品的相似度和用户的历史行为给用户生成推荐列表。第一步的关键点在于计算物品之间的相似度,这里并不采用基于... 阅读全文
posted @ 2015-07-09 20:14 白开水加糖 阅读(918) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-07-09 18:26 白开水加糖 阅读(0) 评论(0) 推荐(0)
摘要:以下是摘抄自知乎上对监督学习与非监督学习的总结,觉得写得很形象,于是记下:这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高... 阅读全文
posted @ 2015-07-07 14:29 白开水加糖 阅读(13444) 评论(0) 推荐(1)
摘要:数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从而为企业提供全 面的数据共享,是企业商务智能、数据仓库系统的重要组成部分。ETL是企业数据集成的概念出发,简要分析了当前ETL中用到的 一些基本技术,为ETL系统的开发和ETL技术的应用提供一些参考。1.ETL简介随着企业信息化建设... 阅读全文
posted @ 2015-07-07 12:35 白开水加糖 阅读(1609) 评论(0) 推荐(0)
摘要:根据在炼数成金上的学习,将部分代码总结一下在需要的时候可以多加温习。首先根据原理作简要分析.一般推荐系统使用的协同过滤推荐模型:分别是基于ItemCF的推荐模型或者是基于UserCF的推荐模型;首先分析一下基于用户的推荐系统模型:基于用户的协同过滤,通过不同用户对物品的评分来评测用户之间的相似性,基... 阅读全文
posted @ 2015-07-06 09:28 白开水加糖 阅读(4267) 评论(0) 推荐(0)
摘要:如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化。相关内容 推荐最常见的两块就是“关联推荐”和“相关内容推荐”,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间 的潜在联系,之... 阅读全文
posted @ 2015-07-03 17:45 白开水加糖 阅读(560) 评论(0) 推荐(0)
摘要:文本自动分类技术是文字管理的基础。通过快速、准确的文本自动分类,可以节省大量的人力财力;提高工作效率;让用户快速获得所需资源,改善用户体验。本文着重对KNN文本分类算法进行介绍并提出改进方法。一、相关理论介绍文本分类技术的研究由来已久,并且取得了很多可喜的成果,形成了一套完整的文本自动分类流程。(1... 阅读全文
posted @ 2015-07-03 17:42 白开水加糖 阅读(1106) 评论(0) 推荐(0)
摘要:在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分 类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设... 阅读全文
posted @ 2015-07-03 16:46 白开水加糖 阅读(397) 评论(0) 推荐(0)
摘要:最近研究数据挖掘的相关知识,总是搞混一些算法之间的关联,俗话说好记性不如烂笔头,还是记下了以备不时之需。首先明确一点KNN与Kmeans的算法的区别:1.KNN算法是分类算法,分类算法肯定是需要有学习语料,然后通过学习语料的学习之后的模板来匹配我们的测试语料集,将测试语料集合进行按照预先学习的语料模... 阅读全文
posted @ 2015-07-03 16:45 白开水加糖 阅读(34428) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2015-07-02 13:56 白开水加糖 阅读(152) 评论(0) 推荐(0)