2015 年 7月随笔档案 - 白开水加糖

遗传算法入门之五

该文被密码保护。

posted @ 2015-07-31 19:50 白开水加糖阅读(0) 评论(0) 推荐(0)

遗传算法入门之四

该文被密码保护。

posted @ 2015-07-31 19:48 白开水加糖阅读(1) 评论(0) 推荐(0)

遗传算法入门之三

该文被密码保护。

posted @ 2015-07-31 19:47 白开水加糖阅读(0) 评论(0) 推荐(0)

遗传算法入门之二

该文被密码保护。

posted @ 2015-07-31 19:46 白开水加糖阅读(0) 评论(0) 推荐(0)

遗传算法入门(连载之一)

该文被密码保护。

posted @ 2015-07-31 19:44 白开水加糖阅读(1) 评论(0) 推荐(0)

个人日记(2015.7.22)

该文被密码保护。

posted @ 2015-07-22 20:18 白开水加糖阅读(2) 评论(0) 推荐(0)

抓取网贷之家的数据爬虫

摘要：最近在做ETL的项目，其中肯定要有数据，才能在各个工具之间抽取、转存、加载。按照天亮爬虫项目上的讲解，对网易之家的贷款机构进行了抓取。大致模块分为四部分：抓取模块、实体类、工具类、控制类。现在把相关的代码大致记录一遍，以防遗忘。首先定义一个定义两个工具类，第一个工具类负责将将后期抓取的数据写入到一个... 阅读全文

posted @ 2015-07-20 15:16 白开水加糖阅读(2841) 评论(4) 推荐(0)

感知哈希算法的java实现

摘要：一、原理讲解实现这种功能的关键技术叫做"感知哈希算法"(Perceptual Hash Algorithm), 意思是为图片生成一个指纹(字符串格式), 两张图片的指纹越相似, 说明两张图片就越相似. 但关键是如何根据图片计算出"指纹"呢? 下面用最简单的步骤来说明一下原理: 《1》、第一步... 阅读全文

posted @ 2015-07-19 21:30 白开水加糖阅读(2472) 评论(1) 推荐(1)

最短路径—Dijkstra算法和Floyd算法

摘要：Dijkstra算法1.定义概览Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法，用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展，直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法，在很多专业课程中都作为基本内容有详细的介绍，如数据结构，图论... 阅读全文

posted @ 2015-07-18 19:17 白开水加糖阅读(362) 评论(0) 推荐(0)

关于图像特征提取

摘要：特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。特征的定义至今为止特征没有万能和精确的定义。特征的精确定义往往由问题或者应用类型决... 阅读全文

posted @ 2015-07-18 15:10 白开水加糖阅读(712) 评论(0) 推荐(0)

hive学习之WordCount单词统计

摘要：看hive目录下就可以了，程序在hdfs里创建一个hive的大文件夹，相当于数据库吧。上面就是一个完整的利用hive来做单词统计，其中的优劣也能看出一点。阅读全文

posted @ 2015-07-15 10:35 白开水加糖阅读(479) 评论(0) 推荐(0)

pig、hive以及hbase的作用

摘要：PigPig是一种数据流语言，用来快速轻松的处理巨大的数据。Pig包含两个部分：Pig Interface,Pig Latin。Pig可以非常方便的处理HDFS和HBase的数据，和Hive一样,Pig可以非常高效的处理其需要做的，通过直接操作Pig查询可以节省大量的劳动和时间。当你想在你的数据上... 阅读全文

posted @ 2015-07-15 09:35 白开水加糖阅读(2115) 评论(0) 推荐(0)

zookeeper入门知识

摘要：ZooKeeper 是什么？ ZooKeeper 顾名思义动物园管理员，他是拿来管大象(Hadoop)、蜜蜂(Hive)、小猪(Pig) 的管理员， Apache Hbase和 Apache Solr 以及LinkedIn sensei等项目中都采用到了 Zookeeper。ZooKeeper... 阅读全文

posted @ 2015-07-14 22:00 白开水加糖阅读(293) 评论(0) 推荐(0)

hadoop文件系统浅析

摘要：1.什么是分布式文件系统？管理网络中跨多台计算机存储的文件系统称为分布式文件系统。2.为什么需要分布式文件系统了？原因很简单，当数据集的大小超过一台独立物理计算机的存储能力时候，就有必要对它进行分区（partition）并存储到若干台单独计算机上。3.分布式系统比传统的文件的系统更加复杂因为分布式文... 阅读全文

posted @ 2015-07-14 21:06 白开水加糖阅读(552) 评论(0) 推荐(0)

Hive基础学习

摘要：Hive 学习记录Hive介绍：Hive 是起源于Facebook，使得Hadoop进行SQL查询成为可能，进而使得非程序员也可以进进行对其使用；它是一种数据仓库工具，将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务运行。其优点是学习... 阅读全文

posted @ 2015-07-14 21:03 白开水加糖阅读(246) 评论(0) 推荐(0)

mapreduce框架详解

摘要：Mapreduce初析 Mapreduce是一个计算框架，既然是做计算的框架，那么表现形式就是有个输入（input），mapreduce操作这个输入（input），通过本身定义好的计算模型，得到一个输出（output），这个输出就是我们所需要的结果。我们要学习的就是这个计算模型的运行规则。在... 阅读全文

posted @ 2015-07-14 14:18 白开水加糖阅读(465) 评论(0) 推荐(0)

随机森林的学习

摘要：阅读目录1 什么是随机森林？2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率（oob error）6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部1 什么是随机森林？作为新兴起的、高度灵活的一种机器学习算法，随机森林（Rando... 阅读全文

posted @ 2015-07-14 10:53 白开水加糖阅读(619) 评论(0) 推荐(0)

决策树

摘要：决策树决策树又称为判定树，是运用于分类的一种树结构，其中的每个内部节点代表对某一属性的一次测试，每条边代表一个测试结果，叶节点代表某个类或类的分布。决策树的决策过程需要从决策树的根节点开始，待测数据与决策树中的特征节点进行比较，并按照比较结果选择选择下一比较分支，直到叶子节点作为最终的决策结果。决策... 阅读全文

posted @ 2015-07-14 10:28 白开水加糖阅读(655) 评论(0) 推荐(0)

浅析PageRank算法

摘要：很早就对Google的PageRank算法很感兴趣，但一直没有深究，只有个轮廓性的概念。前几天趁团队outing的机会，在动车上看了一些相关的资料（PS：在动车上看看书真是一种享受），趁热打铁，将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题，同时讨论早期搜索引擎关于结果页面重要性评价算法的... 阅读全文

posted @ 2015-07-13 21:44 白开水加糖阅读(4397) 评论(0) 推荐(0)

Logistic Regression 模型简介

摘要：逻辑回归（Logistic Regression）是机器学习中的一种分类模型，由于算法的简单和高效，在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇，主要关注逻辑回归算法的数学模型和参数求解方法，最后也会简单讨论下逻辑回归和贝叶斯分类的关系，以及在多分类问题上的推广。逻辑回归... 阅读全文

posted @ 2015-07-13 14:30 白开水加糖阅读(2568) 评论(0) 推荐(0)

神经网络的通俗理解

摘要：数学之美--上对人工神经网络的通俗解释很形象：0. 分类神经网络最重要的用途是分类，为了让大家对分类有个直观的认识，咱们先看几个例子：垃圾邮件识别：现在有一封电子邮件，把出现在里面的所有词汇提取出来，送进一个机器里，机器需要判断这封邮件是否是垃圾邮件。疾病判断：病人到医院去做了一大堆肝功、尿检测验，... 阅读全文

posted @ 2015-07-12 16:39 白开水加糖阅读(8660) 评论(1) 推荐(0)

LDA主题模型学习的学习笔记

该文被密码保护。

posted @ 2015-07-12 16:00 白开水加糖阅读(3) 评论(0) 推荐(0)

PLSA公式推导

该文被密码保护。

posted @ 2015-07-11 17:00 白开水加糖阅读(3) 评论(0) 推荐(0)

github 上传项目基本步骤

摘要：说来也惭愧，我是最近开始用github，小白一个，昨天研究了一个下午。终于可以上传了，所以今天写点，一来分享是自己的一些经验，二来也是做个记录，万一哪天又不记得了:) 废话不多说，直接来，这次主要介绍的是windows下的安装和使用。【第一步】建立先仓库第一步的话看一般的提示就知道了，在gith 阅读全文

posted @ 2015-07-10 19:57 白开水加糖阅读(359) 评论(0) 推荐(0)

生产者消费者问题

该文被密码保护。

posted @ 2015-07-10 16:14 白开水加糖阅读(3) 评论(0) 推荐(0)

简单版实现控制台聊天版本

该文被密码保护。

posted @ 2015-07-10 15:07 白开水加糖阅读(1) 评论(0) 推荐(0)

java网络编程之简易聊天室

该文被密码保护。

posted @ 2015-07-10 11:06 白开水加糖阅读(2) 评论(0) 推荐(0)

分类算法之朴素贝叶斯分类

该文被密码保护。

posted @ 2015-07-09 21:12 白开水加糖阅读(2) 评论(0) 推荐(0)

基于用户的协同推荐算法

摘要：协同过滤是推荐算法中最基本的算法，主要分为基于用户的协同过滤算法和基于物品的协同过滤算法。这篇文章主要介绍基于用户的协同过滤算法，简单来说，要给用户u作推荐，那么只要找出那些和u之前的行为类似的用户，即和u比较像的用户，把他们的行为推荐给用户u即可。所以基于用户的系统过滤算法包括两个步骤：1）找到和... 阅读全文

posted @ 2015-07-09 20:30 白开水加糖阅读(449) 评论(0) 推荐(0)

基于物品的协同过滤推荐算法

摘要：基于物品的协同过滤算法（ItemCF）是业界应用最多的算法，主要思想是利用用户之前有过的行为，给用户推荐和之前物品类似的物品。基于物品的协同过滤算法主要分为两步：1）计算物品之间的相似度。2）根据物品的相似度和用户的历史行为给用户生成推荐列表。第一步的关键点在于计算物品之间的相似度，这里并不采用基于... 阅读全文

posted @ 2015-07-09 20:14 白开水加糖阅读(918) 评论(0) 推荐(0)

apache POI的使用

该文被密码保护。

posted @ 2015-07-09 18:26 白开水加糖阅读(0) 评论(0) 推荐(0)

监督学习与非监督学习的区别

摘要：以下是摘抄自知乎上对监督学习与非监督学习的总结，觉得写得很形象，于是记下：这个问题可以回答得很简单：是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习首先看什么是学习（learning）？一个成语就可概括：举一反三。此处以高... 阅读全文

posted @ 2015-07-07 14:29 白开水加糖阅读(13444) 评论(0) 推荐(1)

深入了解当前ETL的一些基本技术

摘要：数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享，是企业商务智能、数据仓库系统的重要组成部分。ETL是企业数据集成的概念出发，简要分析了当前ETL中用到的一些基本技术，为ETL系统的开发和ETL技术的应用提供一些参考。1.ETL简介随着企业信息化建设... 阅读全文

posted @ 2015-07-07 12:35 白开水加糖阅读(1609) 评论(0) 推荐(0)

基于hadoop的图书推荐

摘要：根据在炼数成金上的学习，将部分代码总结一下在需要的时候可以多加温习。首先根据原理作简要分析.一般推荐系统使用的协同过滤推荐模型：分别是基于ItemCF的推荐模型或者是基于UserCF的推荐模型；首先分析一下基于用户的推荐系统模型:基于用户的协同过滤，通过不同用户对物品的评分来评测用户之间的相似性，基... 阅读全文

posted @ 2015-07-06 09:28 白开水加糖阅读(4267) 评论(0) 推荐(0)

基于KNN的相关内容推荐

摘要：如果做网站的内容运营，相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息，从而提升网站内容浏览的流畅性，进而提升网站的价值转化。相关内容推荐最常见的两块就是“关联推荐”和“相关内容推荐”，关联推荐就是我们常说的购物篮分析，即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系，之... 阅读全文

posted @ 2015-07-03 17:45 白开水加糖阅读(560) 评论(0) 推荐(0)

KNN算法的补充

摘要：文本自动分类技术是文字管理的基础。通过快速、准确的文本自动分类，可以节省大量的人力财力；提高工作效率；让用户快速获得所需资源，改善用户体验。本文着重对KNN文本分类算法进行介绍并提出改进方法。一、相关理论介绍文本分类技术的研究由来已久，并且取得了很多可喜的成果，形成了一套完整的文本自动分类流程。（1... 阅读全文

posted @ 2015-07-03 17:42 白开水加糖阅读(1106) 评论(0) 推荐(0)

距离和相似度度量

摘要：在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设... 阅读全文

posted @ 2015-07-03 16:46 白开水加糖阅读(397) 评论(0) 推荐(0)

Kmeans算法与KNN算法的区别

摘要：最近研究数据挖掘的相关知识，总是搞混一些算法之间的关联，俗话说好记性不如烂笔头，还是记下了以备不时之需。首先明确一点KNN与Kmeans的算法的区别：1.KNN算法是分类算法，分类算法肯定是需要有学习语料，然后通过学习语料的学习之后的模板来匹配我们的测试语料集，将测试语料集合进行按照预先学习的语料模... 阅读全文

posted @ 2015-07-03 16:45 白开水加糖阅读(34428) 评论(0) 推荐(0)

mahout与nosql的两幅经典图形

摘要：阅读全文

posted @ 2015-07-02 13:56 白开水加糖阅读(152) 评论(0) 推荐(0)

白开水加糖

巧者劳，智者忧，唯无能者无所求。

07 2015 档案

公告