随笔分类 -  Machine Learning

摘要:我们可以使用最小二乘法求解线性回归: β即是我们模型训练获得的系数。但是这里有个问题即是涉及到了矩阵求逆,这就要求XTX可逆,在实际的应用中,很多情况下,矩阵是不可逆的,如何处理呢?我们可以求矩阵的伪逆,函数原型: 计算一个矩阵的伪逆(Moore Penrose)。 a:(m,n)要求逆的矩阵 rc 阅读全文
posted @ 2018-07-13 23:00 冬色 阅读(2525) 评论(0) 推荐(0)
摘要:过拟合是机器学习的模型建立中,由于独立同分布的假设可能并不成立,为了提高模型泛化的能力(推广到未知数据的能力),所以必须在训练模型中抗过拟。 过拟合一直是机器学习中比较头疼的问题。常用的方法有:正则化Regularization(在目标函数或者代价函数加上正则项),early stopping,数据 阅读全文
posted @ 2018-07-13 22:58 冬色 阅读(684) 评论(0) 推荐(0)
摘要:什么是TF IDF TF IDF(term frequency inverse document frequency)词频 逆向文件频率。在处理文本时,如何将文字转化为模型可以处理的向量呢?TF IDF就是这个问题的解决方案之一。字词的重要性与其在文本中出现的频率成正比(TF),与其在语料库中出现的 阅读全文
posted @ 2018-07-13 22:57 冬色 阅读(30406) 评论(1) 推荐(2)
摘要:sklearn中的LinearRegression 函数原型: fit\_intercept:模型是否存在截距 normalize:模型是否对数据进行标准化(在回归之前,对X减去平均值再除以二范数),如果fit\_intercept被设置为False时,该参数将忽略。 该函数有属性:coef\_可供 阅读全文
posted @ 2018-07-13 22:57 冬色 阅读(14931) 评论(0) 推荐(0)
摘要:nltk(Natural Language Toolkit)是处理文本的利器。 安装 进入python命令行,键入nltk.download()可以下载nltk需要的语料库等等。 分词 按词语分割(传入句子) sentence='hello,world!' tokens=nltk.word_toke 阅读全文
posted @ 2018-07-13 22:55 冬色 阅读(434) 评论(0) 推荐(0)
摘要:Neural Networks: Learning Advice for Applying Machine Learning Machine Learning System Design 阅读全文
posted @ 2018-07-13 22:44 冬色 阅读(215) 评论(0) 推荐(0)
摘要:代价函数cost function 公式: 其中,变量θ(Rn+1或者R(n+1) 1) 向量化: Octave实现: function J = computeCost(X, y, theta) %COMPUTECOST Compute cost for linear regression % J 阅读全文
posted @ 2018-07-13 22:43 冬色 阅读(756) 评论(0) 推荐(0)
摘要:Logistic Regression Regularization Neural Networks: Representation 阅读全文
posted @ 2018-07-13 22:43 冬色 阅读(171) 评论(0) 推荐(0)
摘要:吴恩达(Andrew Ng)机器学习课程: "课程主页" 由于博客编辑器有些不顺手,所有的课程笔记将全部以手写照片形式上传。有机会将在之后上传课程中各个ML算法实现的Octave版本。 Linear Regression with One Variable Linear Algebra Review 阅读全文
posted @ 2018-07-13 22:43 冬色 阅读(289) 评论(0) 推荐(0)
摘要:现在我们有了假设函数和评价假设准确性的方法,现在我们需要确定假设函数中的参数了,这就是梯度下降(gradient descent)的用武之地。 梯度下降算法 不断重复以下步骤,直到收敛(repeat until convergence): 其中,j=0,1表示特征索引值 对线性回归使用梯度下降法 另 阅读全文
posted @ 2018-07-13 22:42 冬色 阅读(247) 评论(0) 推荐(0)
摘要:coursera上吴恩达的机器学习课程使用Octave/Matlab实现算法,有必要知道Octave简单的语句。最重要的:在遇到不会的语句,使用'''help '''或者'''doc '''查看官方文档。 基本操作 help/显示命令的简要帮助信息 doc/显示命令的详细帮助文档 length/应用 阅读全文
posted @ 2018-07-13 22:42 冬色 阅读(722) 评论(0) 推荐(0)
摘要:引入额外标记 xj(i) 第i个训练样本的第j个特征 x(i) 第i个训练样本对应的列向量(column vector) m 训练样本的数量 n 样本特征的数量 假设函数(hypothesis function) 公式: 向量化: 其中:令x0=1,x0引入的目的是为了“美化”,以便于矩阵计算 使用 阅读全文
posted @ 2018-07-13 22:41 冬色 阅读(200) 评论(0) 推荐(0)
摘要:从数据中寻找规律 1. 使用模型刻画(拟合)规律:正确的总体趋势;对每一点都有偏差 2. 机器学习发展的源动力:从历史数据找出规律,把这些规律用到对未来自动做出决定;用数据代替专家;经济驱动,数据变现 3. 业务系统的变化 离线学习:之前的数据,批处理,训练 在线学习:实时学习,用户每产生一条数据, 阅读全文
posted @ 2018-07-13 22:41 冬色 阅读(167) 评论(0) 推荐(0)
摘要:什么是机器学习 1. 定义 对于某个任务T和表现的衡量P,当计算机程序在该任务T的表现上,经过P的衡量,随着经验E而增长,称计算机能够通过经验E来学习该任务。(Tom Mitchell) 2. 举例而言,在跳棋游戏中,任务T为玩跳棋游戏,衡量P是游戏输赢,经验E是一局又一局的游戏。 监督学习(sup 阅读全文
posted @ 2018-07-13 22:40 冬色 阅读(804) 评论(0) 推荐(0)
摘要:模型表达(model regression) 1. 用于描述回归问题的标记 m 训练集(training set)中实例的数量 x 特征/输入变量 y 目标变量/输出变量 (x,y) 训练集中的实例 (x(i),y(i)) 第i个观察实例 h 机器学习算法中的解决方案和函数,即假设(hypothes 阅读全文
posted @ 2018-07-13 22:32 冬色 阅读(186) 评论(0) 推荐(0)
摘要:超平面(hyperplane) 超平面:超平面是n维欧氏空间中余维度等于一的线性子空间,也就是说必须是(n 1)维度。这是平面中的直线、三维空间中平面的推广(n大于3才被称为“超”平面),是纯粹的数学概念,不是现实的物理概念。 线性可分(linearly separable):分布于 D 维空间中的 阅读全文
posted @ 2018-07-13 21:59 冬色 阅读(189) 评论(0) 推荐(0)
摘要:Capsule Network最大的特色在于vector in vector out & 动态路由算法。 vector in vector out 所谓vector in vector out指的是将原先使用 标量表示 的神经元变为使用 向量表示 的神经元。这也即是所谓的“Capsule”,“vec 阅读全文
posted @ 2018-07-13 21:22 冬色 阅读(3011) 评论(1) 推荐(0)