上一页 1 2 3 4 5 6 7 ··· 10 下一页
摘要: 学计算机跟学武功一样,一定要注意内功修为,张无忌学习了九阳真经之后十几个时辰就学好了别人要花几十年的功夫的乾坤大挪移;技术也要专一,慕容复了解百家武学却敌不过乔峰一招降龙十八掌。 对于程序开发这个跟造房子一样,这个是后话了。 对于计算机的基础分为三块。 1、专业基础-算法与数据结构 2、数学基础-数学基础太多了,高等数学、线性代数、概率与统计、离散数学等等 3、英语 数学英语的基础后面... 阅读全文
posted @ 2014-02-18 21:48 越影&逐日而行 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 在介绍相似度计算之前先介绍一下文档模型,也就是我们在解决一个问题的时候,一般是抽象出一个模型,也可以称为数学模型,这个模型可能是一个函数,可能是一个假设,主要的是为了解决这个问题。文档模型布尔模型建立在经典的集合论和布尔代数的基础上,每个词在一篇文档中是否出现,对应权值为 0或1向量空间模型中将文档表达为向量空间中的一个矢量或一个点,一个坐标轴代表一个词基于向量空间模型的相关度计算方法: 这边有几个概念,词频和逆向文件频率 词频就是把词进行归一化处理,那词在文档中出现的次数除以总文档总词数 逆向文件频率,主要衡量一个词重要性的标志,具体计算采用总文档数除以该词出现的文档数后取对数。数学之美中吧 阅读全文
posted @ 2014-01-18 15:27 越影&逐日而行 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 文本挖掘可能更侧重于挖掘,跟NLP自然语言处理侧重点不一样,不过其依赖于自然语言处理,我的感觉就相当于计算机视觉依托于图像处理这个方向,大家侧重点不一样。自然语言处理主要流程文本->分句->分词->词性标注->短语分析->句法分析->语义分析->语篇分析->理解分句这个一般有标点符号相隔,这个便于处理。下面主要解决分词问题。分词的解决也就是解决特征提取的问题,我们在图像处理的时候要解决的第一个问题就是特征提取,选择什么样合理的特征。下面说一下分词基本方法:基于词典的方法基于标注的分词基于词典的方法中基于匹配的方法最大匹配算法(MM)具体思路:设定 阅读全文
posted @ 2014-01-17 21:28 越影&逐日而行 阅读(957) 评论(0) 推荐(0) 编辑
摘要: 理解置信度、支持度的定义以及最小置信度和最小支持度。 这几个概念要搞明白。 我们要做的事情就是在数据集中找出所有支持度大于最小支持度,置信度大于最小置信度的关联规则。 关联规则的挖掘所面临的问题就是数据量大,则如何提高算法的效率就是我们主要要解决的问题。 另外一个概念就是频繁项集,支持度大于最小支持度的数据项集就是频繁项集。 由于置信度通过支持度就可以求出,所以我们的关键问题就是如何求支... 阅读全文
posted @ 2014-01-17 11:47 越影&逐日而行 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 下面介绍无监督机器学习算法,与前面分类回归不一样的是,这个不知道目标变量是什么,这个问题解决的是我们从这些样本中,我们能发现什么。 这下面主要讲述了聚类算法,跟数据挖掘中的关联挖掘中的两个主要算法。 K均值算法工作流程,首先随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中。 具体的讲就是为每个点找到最近的质心,并将其分配给该质心所对应的簇,这一步完成之后,每个簇的质心更新为该... 阅读全文
posted @ 2014-01-17 10:25 越影&逐日而行 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 在前面线性回归,线性回归要拟合全部样本,这个是不显示的,因为问题不一定就是线性模型,其中一种可行的方法是将数据集切分成多分易建模的数据,然后利用前面线性回归的方法来建模。如果第一个切分之后的数据还不好拟合的话,那就继续切分。 这就是决策树中一种叫分类回归树CART。这个算法即可以用于分类也可以用于回归。 在这个学习中,介绍了树剪枝算法。 CART算法实现 先看一下之前的树分类 from ... 阅读全文
posted @ 2014-01-17 09:56 越影&逐日而行 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 对于之前在分类问题中有逻辑回归,而对于这个线性回归以前一般是先讲述,将线性回归的结果通过函数映射到(0,1)区间,再以0.5作为区分形成分类问题。 具体的计算方法,在以前的blogs提到过,参考:http://www.cnblogs.com/fengbing/archive/2013/05/15/3079033.html 下面就直接实战 跟之前一样,第一步导入数据。 def loadDat... 阅读全文
posted @ 2014-01-16 16:54 越影&逐日而行 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 集成学习方法是机器学习领域中用来提升分类算法准确率的技术,主要包括Bagging和Boosting即装袋和提升。我们这主要讲述Boosting中代表性算法AdaBoost元算法基于数据集多重抽样的分类器前面介绍了K近邻算法、决策树算法、朴素贝叶斯算法、逻辑回归以及支持向量机这些算法各有优缺点,我们自然可以将不同的分类器组合起来,这种组合的结果就被称为集成方法,有时也叫元算法。集成也分几种:1、不同算法的集成2、同一种算法在不同设置下的集成3、数据集的不同部分分配给不同分类器之后的集成。本文主要关心一个最流行的版本AdaBoost这个算法的主要思路:训练数据集中的每一个样本,并给每个样本赋予一个 阅读全文
posted @ 2014-01-16 15:36 越影&逐日而行 阅读(987) 评论(0) 推荐(0) 编辑
摘要: 支持向量机,作为新手,给出新手的学习心得,可能能让新手更容易理解吧。对于SVM的讲解,网上已经很多了,支持向量机通俗导论(理解SVM的三层境界) 这一篇blog写得很好,不过对于一个新手来说,我感觉行文逻辑还是有点怪,作者的写法是遇到问题解决问题,无可厚非这是一个很好的学习习惯,不过真正让学习的人看起来却没有一个提纲挈领的作用,而这次学习遇到这个算法,写下自己的学习笔记,里面也写了一点自己学习的思路,只是代表自己的一点愚见,本文主要参考上述blog以及该blog列出的参考文献。python算法实现,仍然是机器学习实战这本书。SVM怎么用学习这个东西就是为了用这个东西,目前网上有很多开源,免费的 阅读全文
posted @ 2014-01-15 13:18 越影&逐日而行 阅读(585) 评论(0) 推荐(0) 编辑
摘要: 对于线性回归、logistic回归,在以前准备学习深度学习的时候看过一点,当时的数学基础有点薄弱,虽然现在还是有点差,当时看到神经网络之后就看不下去了。不过这次是通过python对logistic回归进行编码实现。线性回归跟逻辑回归介绍就不多说了。网上有很多很好的讲解。另外我之前也写过自己学习斯坦福Andrew.Ng的课程的笔记,如下:http://www.cnblogs.com/fengbing/archive/2013/05/15/3079033.htmlhttp://www.cnblogs.com/fengbing/archive/2013/05/15/3079399.htmlhttp: 阅读全文
posted @ 2014-01-14 21:40 越影&逐日而行 阅读(6624) 评论(3) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 10 下一页