随笔分类 - 机器学习
摘要:前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相...
阅读全文
摘要:特征选择,我对这一部分也不熟,大概讲一下,用AttributeSelection进行特征选择,它需要设置3个方面,第一:对属性评价的类(自己到Weka软件里看一下,英文Attribute Evaluator),第二:搜索的方式(自己到Weka软件里看一下,英文Search Method),第三:就是...
阅读全文
摘要:上一次最后的结果就是一个分类的值,可能让大家大失所望,这一次会给大家一个比较完美的答案,这就是Evaluation类,这次只讲一下最简单的用法,首先初始化一个Evaluation对象,Evaluation类没有无参的构造函数,一般用Instances对象作为构造函数的参数。如果没有分开训练集和测试集...
阅读全文
摘要:这次介绍如何利用weka里的类对数据集进行分类,要对数据集进行分类,第一步要指定数据集中哪一列做为类别,如果这一步忘记了(事实上经常会忘记)会出现“Class index is negative (not set)!”这个错误,设置某一列为类别用Instances类的成员方法setClassInde...
阅读全文
摘要:先google一下,把Weka软件下载下来,安装完成之后,在Weka的安装目录中有一个weka.jar的包。把包添加到工程中后,就可以调用weka中的函数了。再介绍一点weka的基本知识,在weka的目录下,有一个data的文件夹,里面存放的是一些数据集,以第一个数据集contact-lens...
阅读全文
摘要:北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEE Computer Society北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室 - PARNEC南京大学机器学习与数据挖掘研究所 - LAM...
阅读全文
摘要:本文简要介绍了10款 Quora上网友推荐的人工智能和机器学习领域方面的开源项目。GraphLabGraphLab是一种新的面向机器学习的并行框架。GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以 分析产品,该公司客户包括Zillow、Adobe、Zynga、Pa...
阅读全文
摘要:1 贝叶斯分类器 优点:接受大量数据训练和查询时所具备的高速度,支持增量式训练;对分类器实际学习的解释相对简单 缺点:无法处理基于特征组合所产生的变化结果2 决策树分类器 优点:很容易解释一个受训模型,而且算法将最为重要的判断因素都很好的安排在了靠近树的根部位置;能够同时处理分类数据和数值数据;很容易处理变量之间的相互影响;适合小规模数据 缺点:不擅长对数值结果进行预测;不支持增量式训练3 神经网络 优点:能够处理复杂的非线性函数,并且能发现不同输入间的依赖关系;支持增量式训练 缺点:黑盒方法,无法确定推导过程;选择训练数据的比率与问题相适应的网络规模方面,没有明确的规则可以遵循,...
阅读全文
摘要:Mahout之(一)数据承载推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化。Preference在Mahout中,用户的喜好被抽象为一个Preference,包含了userId,itemId和偏好值(user对item的偏好)。Preference是一个接口,它有一个通用的实现是GenericPreference。因为用户的喜好数据是大规模的,我们通常会选择把它放入集合或者数组。同时,由于Java的对象的内存消耗机制,在大数据量下使用Collection<Preference>和Preference[]是非常低效的。为什么
阅读全文
摘要:斯坦福大学机器学习斯坦福大学机器学习第十一课“机器学习系统设计(Machine learning system design)””学习笔记,本次课程主要包括5部分:1) Prioritizing what to work on: Spam classification example(工作的优先级:垃圾邮件分类例子)2) Error analysis(错误分析)3) Error metrics for skewed classes(不对称性分类的错误评估)4) Trading off precision and recall(精确度和召回率的权衡)5) Data for machine lea
阅读全文
摘要:斯坦福大学机器学习斯坦福大学机器学习第十课“神经网络的学习(Neural Networks: Learning)”学习笔记,本次课程主要包括7部分:1) Deciding what to try next(决定下一步该如何做)2) Evaluating a hypothesis(评估假设)3) Model selection and training/validation/test sets(模型选择和训练/验证/测试集)4) Diagnosing bias vs. variance(诊断偏差和方差)5) Regularization and bias/variance(正则化和偏差/方差)6
阅读全文
摘要:斯坦福大学机器学习斯坦福大学机器学习第九课“神经网络的学习(Neural Networks: Learning)”学习笔记,本次课程主要包括8部分:1) Cost function(代价函数)2) Backpropagation algorithm(BP算法 or 反向传播算法)3) Backpropagation intuition(BP算法的直观解释)4) Implementation note: Unrolling parameters(实现时的注意点:展开参数)5) Gradient checking(梯度下降算法的验证)6) Random initialization(随机初始化)7
阅读全文
摘要:斯坦福大学机器学习第八课“神经网络的表示(Neural Networks: Representation)”学习笔记,本次课程主要包括7部分:1)Non-linear hypotheses (非线性hypotheses)2)Neurons and the brain (神经元和大脑)3)Model representation I (模型表示一)4)Model representation II (模型表示二)5) Examples and intuitions I (例子和直观解释一)6) Examples and intuitions II (例子和直观解释二)7) Multi-class
阅读全文
摘要:斯坦福大学机器学习第七课"正则化“学习笔记,本次课程主要包括4部分:1)The Problem of Overfitting(过拟合问题)2) Cost Function(成本函数)3) Regularized Linear Regression(线性回归的正则化)4) Regularized Logistic Regression(逻辑回归的正则化)以下是每一部分的详细解读。1)The Problem of Overfitting(过拟合问题)拟合问题举例-线性回归之房价问题:a) 欠拟合(underfit, 也称High-bias)b) 合适的拟合:c) 过拟合(overfit,
阅读全文
摘要:斯坦福大学机器学习第六课"逻辑回归“学习笔记,本次课程主要包括7部分:1) Classification(分类)2) Hypothesis Representation3) Decision boundary(决策边界)4) Cost function(代价函数,成本函数)5) Simplified cost function and gradient descent(简化版代价函数及梯度下降算法)6) Advanced optimization(其他优化算法)7) Multi-class classification: One-vs-all(多类分类问题)以下是每一部分的详细解读。
阅读全文
摘要:斯坦福大学机器学习公开课第五课是“Octave Tutorial”,主要是机器学习公开课的编程作业需要用Octave完成,同样需要用Octave完成作业的还有PGM(概率图模型)课程。和第三课线性代数回顾相似,这里不打算写“Coursera公开课笔记: 斯坦福大学机器学习第五课“Octave 指南(Octave Tutorial)”,而是想换一种思路,将现有的不错的Octave学习资源进行一个整理。Octave 是一个旨在提供与Matlab语法相容的开放源代码的科学计算与数值分析的工具,同时是GNU旗下的成员之一,官方网站见:GNU Octave, 官方文档比较详细, 见:GNU Octave
阅读全文
摘要:斯坦福大学机器学习第四课"多变量线性回归“学习笔记,本次课程主要包括7部分:1) Multiple features(多维特征)2) Gradient descent for multiple variables(梯度下降在多变量线性回归中的应用)3) Gradient descent in practice I: Feature Scaling(梯度下降实践1:特征归一化)4) Gradient descent in practice II: Learning rate(梯度下降实践2:步长的选择)5) Features and polynomial regression(特征及多
阅读全文
摘要:斯坦福大学机器学习第二课"单变量线性回归“学习笔记,本次课程主要包括7部分:1) Model representation(模型表示)2) Cost function(代价函数,成本函数)3) Cost function intuition I(直观解释1)4) Cost function intuition II(直观解释2)5) Gradient descent(梯度下降)6) Gradient descent intuition(梯度下降直观解释)7) Gradient descent for linear regression(应用于线性回归的的梯度下降算法)以下是第二课“单
阅读全文
摘要:Coursera上于4月23号启动了6门公开课,其中包括斯坦福大学于“机器学习”课程,由机器学习领域的大牛Andrew Ng教授授课:https://www.coursera.org/course/ml课程刚刚开始,对机器学习感兴趣的同学尽量注册,这样即使没有时间学习,获取相关资料特别是视频比较方便。由于工作繁忙的缘故,这批科目里我主要想系统的学习一下“机器学习”课程,所以计划在52opencourse和52nlp上同步我的机器学习课程笔记,一方面做个记录和总结,另一方面方便后来者参考。Coursera上机器学习的课程学习过程是这样的:看Andrew Ng教授的授课视频或者看看课程相关的ppt
阅读全文
摘要:概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记目录0. 前言1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式2. 拼写纠正3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s Razo
阅读全文

浙公网安备 33010602011771号