Data Mining - 随笔分类(第2页) - 刺猬的温驯

感知机模型

摘要：感知机(perceptron)是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面，属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面。为此，导入基于误分类的损失函数，利用梯度下降法对损失... 阅读全文

posted @ 2015-07-22 01:27 刺猬的温驯阅读(1873) 评论(0) 推荐(0)

Logistic回归

摘要：Logistic回归在实际应用中，除了预测问题，其实更多的是分类问题，回归问题和分类问题其实是非常相似的，主要区别是分类问题的输出变量Y是取有限个离散值的，而回归问题本质上是一个拟合问题，给定一组已知数据，选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。面对两个相似的问题，我们就要考虑... 阅读全文

posted @ 2015-07-22 01:24 刺猬的温驯阅读(275) 评论(0) 推荐(0)

最小二乘法的概率解释

摘要：最小二乘法简介最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。上面的定义是摘自维基百科，在实际拟合应用中，而我个人直观的理解就是，最小二乘法是一个评价函数(标... 阅读全文

posted @ 2015-07-22 01:22 刺猬的温驯阅读(878) 评论(0) 推荐(0)

线性回归与梯度下降法

摘要：前言最近在看斯坦福的《机器学习》的公开课，这个课程是2009年的，有点老了，不过讲的还是很好的，廓清了一些我以前关于机器学习懵懂的地方。我的一位老师曾经说过:什么叫理解？理解就是你能把同一个事情用自己的语言表达出来，并且能让别人听得懂。本着这样的原则，同时也为了证明自己是”理解”的，于是决定打算在学... 阅读全文

posted @ 2015-07-22 01:17 刺猬的温驯阅读(302) 评论(0) 推荐(0)

隐马可夫模型：探索看不到的世界的数学工具

摘要：这篇要讨论的可不是哲学议题，而是希望以一个“数学工具”的角度来看隐马可夫模型（Hidden Markov Model, HMM）是什么，它的背后假设、长处与限制，以理解这样的工具可以拿来做什么用，而不是只与特定的应用绑在一起。隐马可夫模型？隐藏的马可夫模型？隐马可夫模型是机器学习（Machine L... 阅读全文

posted @ 2015-07-04 21:20 刺猬的温驯阅读(535) 评论(0) 推荐(0)

分类算法之朴素贝叶斯分类(Naive Bayesian classification)

摘要：1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。1.2、分类问题综述 ... 阅读全文

posted @ 2015-07-02 01:34 刺猬的温驯阅读(956) 评论(0) 推荐(0)

Naive Bayes 笔记

摘要：Naive Bayes (朴素贝叶斯) 属于监督学习算法, 它通过计算测试样本在训练样本各个分类中的概率来确定测试样本所属分类, 取最大概率为其所属分类.优点在数据较少的情况下仍然有效,可以处理多类别问题缺点对输入数据的准备方式较为敏感适用数据类型标称型基础概念1. 条件概率P(A|B)表示事件B已... 阅读全文

posted @ 2015-06-27 19:16 刺猬的温驯阅读(236) 评论(0) 推荐(0)

文本分类技术基础

摘要：分类体系分类：给定一个对象，从一个事先定义好的分类体系中挑出一个或多个最适合该对象的类别。文本分类(TC, Text Categorization)：在给定的分类体系下，根据文本内容自动的确定文本关联的类别。从数学角度看，文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中，该映射可以是... 阅读全文

posted @ 2013-08-23 01:06 刺猬的温驯阅读(2818) 评论(0) 推荐(0)

WEB数据挖掘（十五）——关联规则与序列模式（3）

该文被密码保护。

posted @ 2013-07-09 22:32 刺猬的温驯阅读(2) 评论(0) 推荐(0)

WEB数据挖掘（十四）——关联规则与序列模式（2）

该文被密码保护。

posted @ 2013-07-09 22:31 刺猬的温驯阅读(2) 评论(0) 推荐(0)

WEB数据挖掘（十三）——关联规则与序列模式（1）

摘要：一、Apriori算法简介： Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori（先验的，推测的）算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯；网络安全领域中的入侵检测技术；可用在用于高校管理中，根据... 阅读全文

posted @ 2013-07-09 22:24 刺猬的温驯阅读(684) 评论(0) 推荐(0)

人工智能的四大哲学问题（转载）

摘要：20世纪西方科学哲学的发展，经历了向“语言研究”和“认知研究”的两大转向，认识论的研究在不断去形而上学化的同时，正在走向与科学研究协同发展的道路。作为当代人工智能科学的基础性研究，认知研究的目的是为了清楚地了解人脑意识活动的结构与过程，对人类意识的智、情、意三者的结合作出符合逻辑的说明，以使人工智能... 阅读全文

posted @ 2013-07-06 19:21 刺猬的温驯阅读(2650) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（三）：自动摘要

摘要：转载自　http://www.ruanyifeng.com/blog/有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但肯定是最简便易行的方法。今天，依然继续这个主题。讨论如何通过词频，对文章进行自动摘要（Automatic summarization）。如果能从3000字的文章，提炼出150字的摘要，就可以为读者节省大量阅读时间。由人完成的摘要叫"人工摘要"，由机器完成的就叫"自动摘要"。许多网站都需要它，比如论文网站、新闻网站、搜索引擎等等。阅读全文

posted @ 2013-06-07 05:00 刺猬的温驯阅读(263) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（二）：找出相似文章

摘要：转载自　http://www.ruanyifeng.com/blog/上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。为了简单起见，我们先从句子着手。句子A：我喜欢看电视，不喜欢看电影。句子B：我不喜欢看电视，也不喜欢看电影。请问怎样才能计算上面阅读全文

posted @ 2013-06-07 04:59 刺猬的温驯阅读(338) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（一）：自动提取关键词

摘要：转载自　http://www.ruanyifeng.com/blog/这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我今天想要介绍的TF-IDF算法。让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》，我们准备用计算机提取它的阅读全文

posted @ 2013-06-07 04:57 刺猬的温驯阅读(773) 评论(0) 推荐(0)

WEB数据挖掘（一）——RoadRunner自动包装器

该文被密码保护。

posted @ 2013-05-16 05:58 刺猬的温驯阅读(27) 评论(0) 推荐(0)

基于 Apache Mahout 构建社会化推荐引擎

摘要：简介：Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息，成为了 Web 应用成败的关键。Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎，帮助 Web 应用开发者更高效的实现个性化推荐功能，从而提高最终用户满意度。推荐引擎简介推荐引擎利用特殊的信息过滤（IF，Information Filtering）技术，将不同的内容（例如阅读全文

posted @ 2013-01-13 04:40 刺猬的温驯阅读(232) 评论(0) 推荐(0)

【HtmlParser】HtmlParser使用

摘要：转载http://www.cnblogs.com/549294286/archive/2012/09/04/2670601.htmlHTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：?publicParser ();publicParser (Lexer lexer, ParserFeedback fb);publicParser (URLConnection connection, ParserFeedback fb) throwsParserException;publicParser (St 阅读全文

posted @ 2012-10-18 18:06 刺猬的温驯阅读(5364) 评论(0) 推荐(0)

对于CSDN博客文章不能爬取的问题

摘要：转载http://blog.csdn.net/rongyongfeikai2/article/details/7826057看过Robin的一篇文章，就是反爬虫的。他提到了几种反爬虫的方法：1.手工拒绝，即爬虫的并发量相当高，那么按照80端口进行并发排序，然后手动的把爬虫的IP给禁掉。2.根据User-Agent拒绝，比如如果我们用Java程序进行爬取时，如果没有设header的话，User-Agent就是java，那么就禁掉User-Agent不为浏览器那样的请求。3.根据流量统计和日志分析来屏蔽爬虫，封掉流量特别大的爬虫。4.实时屏蔽，即如果一个IP在一段时间内请求特别频繁，就为爬虫，加入阅读全文

posted @ 2012-10-18 18:04 刺猬的温驯阅读(559) 评论(0) 推荐(0)

博客园文章爬取代码

摘要：转载http://blog.csdn.net/rongyongfeikai2/article/details/7798838最近，在看博客园上的文章。希望能够爬取指定的博客园的文章，并保存为WORD文档的形式。所以，趁着周末休息，花了半天时间把它给做了出来。完整代码下载地址：http://download.csdn.net/detail/rongyongfeikai2/4462085首先，我们爬取的文章，应该包括三个部分：标题、链接和正文。所以，我们用一个POJO来存储文章。[java]view plaincopypackagecom.BlogCrawler.Model;/**author:T 阅读全文

posted @ 2012-10-18 18:02 刺猬的温驯阅读(544) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

随笔分类 - Data Mining

君子博学而日参省乎己 则知明而行无过矣

公告

随笔分类 - Data Mining

君子博学而日参省乎己则知明而行无过矣