随笔分类 -  Machine Learning

摘要:使用one vs all初始手写字母识别 数据特点 + 每一个图片都是20 x 20的像素矩阵,但是在输入的样本中是一个1 x 400的向量,标签y在{0, 1, 2, ..., 9}之间取值 + 共有5000个训练样本 可视化数据 + 从5000个样本中随机的挑选出100个训练样本进行可视化 + 阅读全文
posted @ 2018-11-14 00:18 gogogo11 阅读(1465) 评论(0) 推荐(1)
摘要:逻辑回归案例 小细节 + 逻辑回归(logistic regression)虽然被称之为逻辑回归,但是它本质上其实是一种分类算法(classification algorithm),逻辑回归名字的由来是有历史原因的。 + sigmoid函数在逻辑回归中站着重要的位置,sigmoid function 阅读全文
posted @ 2018-11-10 10:18 gogogo11 阅读(1373) 评论(1) 推荐(0)
摘要:matlab 线性回归实战 统一 + 输入时列向量 + 输出也是列向量 + 中间的过程可以出现行向量或者列向量,但是不能影响输入和输出为列向量 + 参数运算的输入都不会只是一个实数,要么是列向量,要么是一个矩阵 + 对于矩阵,取数据也是一列一列的去,也就是$X(:1)$,$X(:2)$等 + 命令的 阅读全文
posted @ 2018-11-07 22:52 gogogo11 阅读(252) 评论(0) 推荐(0)
摘要:监督学习案例 规范 + 假设函数: 使用h(hypothesis, 假设)表示 + 输入(input value) 向量或者实数: 使用小写字母x等 矩阵: 使用大写字母X等 + 输出(output value) 向量或者实数: 使用小写字母y等 矩阵: 使用大写字母Y等 + 参数(Paramete 阅读全文
posted @ 2018-11-04 11:46 gogogo11 阅读(458) 评论(0) 推荐(0)
摘要:Machine learning Preface Definition + T: Task + E: Experience + P: Performance + Sequence: T E P Supervised learning Definition + Give the right answe 阅读全文
posted @ 2018-11-04 10:48 gogogo11 阅读(137) 评论(0) 推荐(0)
摘要:逻辑回归算法的Python实现 代码 小结 + 一般程序的开头就是调用梯度下降函数, 在该函数中调用我们之前定义好的sigmoid, model等函数, 该函数的返回结果就是我们需要的theta参数 + 对于array([1,2,3])这样矩阵, 它默认是一个列向量, 但是我们希望将他当做一个行向量 阅读全文
posted @ 2018-08-29 17:41 gogogo11 阅读(302) 评论(0) 推荐(0)
摘要:机器学习英语 + norm: 范式 + bias: 偏见; 高偏差 + unfitting: 欠拟合 + overfitting: 过拟合 + variance: 方差 + logistic regression: 逻辑回归 + classifier: 分类器 + stratified: 分层的 + 阅读全文
posted @ 2018-08-29 17:40 gogogo11 阅读(741) 评论(0) 推荐(0)
摘要:神经网络 特性 + 全连接 + 非线性 激活函数(保障神经网络的非线性, 在神经网络中的每一层添加一个激活函数) 类别 + Sigmod: 会出现梯度消失的现象 + RELU: 目前使用最多的激活函数, 表达式时Max(0, x) 计算过程 + 正向传输 + 反向传输 + 参数更新 + 形象一点就是 阅读全文
posted @ 2018-08-29 17:40 gogogo11 阅读(146) 评论(0) 推荐(0)
摘要:机器学习常用函数解析 逻辑回归 from sklearn.preprocessing import StandardScaler from sklearn.linear\_model import LogisticRegression from imblearn.over_sampling impo 阅读全文
posted @ 2018-08-29 17:39 gogogo11 阅读(712) 评论(0) 推荐(0)
摘要:机器学习常用工具 + jieba分词器 jieba.cut(content): 返回一个生成器, 迭代可以返回文本 jieba.lcut(content): 直接返回文本 jieba.cut\_for\_search(content): 搜索引擎模式 jieba.analyse extract\_t 阅读全文
posted @ 2018-08-29 17:39 gogogo11 阅读(758) 评论(0) 推荐(0)
摘要:机器学习 K Means + 原理: 随机的再原始数据的图像中选择几个随机的点 分别以这些点为k, 也就是为中心, 对数据中其他的点的距离进行判断, 那个点里这随意的点中的一个最近, 就认为该点和随机点是同一类的 分类之后, 再从新分成的每一个堆中的再随机取出一个中心点, 重复第二步 最终, 阅读全文
posted @ 2018-08-29 17:38 gogogo11 阅读(244) 评论(0) 推荐(0)
摘要:机器学习(二) 本文只提供机器学习整体框架 类, 方法与函数的使用请自行查看官方API 机器学习的步骤 数据采样(过采样与下采样) + 下采样: 目前不知道有第三方库实现, 自己实现的思路: 通过随机函数生成下标列表, 将下标连接在一起生成新的样本集合 + 过采样(更常用一些, 因为过采样的数据量比 阅读全文
posted @ 2018-08-29 17:38 gogogo11 阅读(215) 评论(0) 推荐(0)
摘要:Python文本数据分析与处理(新闻摘要) 分词 + 使用jieba分词, 注意lcut只接受字符串 过滤停用词 TF IDF得到摘要信息或者使用LDA主题模型 + TF IDF有两种 jieba.analyse.extract_tags(content, topK=20, withWeight=F 阅读全文
posted @ 2018-08-29 17:37 gogogo11 阅读(13476) 评论(0) 推荐(0)
摘要:sklearn 就是因为有了像sklearn这样的黑箱库, 我们大部分时候做的是调试算法, 比较那个算法的性能好, 这就需要熟练算法的推导过程 preprocessing模块 pandas 机器学习知识点 recall与precision + recall: 称之为查全率, 通过学习出来的算法已经得 阅读全文
posted @ 2018-08-29 17:37 gogogo11 阅读(1555) 评论(0) 推荐(0)
摘要:数据分析 1. 提供了数据集合, 应该将他们分成两类, 一个是测试类, 一个是训练类 2. 深度学习中最难的就是特征提取 3. 并不是数据中的所有特征都有用的, 没有需要的使用DataFrame中的drop()去掉 4. one\ hot: 将string值转为int值,方便运算 pd.get\_d 阅读全文
posted @ 2018-08-29 17:37 gogogo11 阅读(141) 评论(0) 推荐(0)
摘要:机器学习中的数学基础 微分学 + 求导数 + 求偏导数 以上两个通过公式或者使用泰勒公式进行逼近得到的 求f(x)在x0处的导数 根据泰勒公式: f(x) = f(x0) + f'(x0)(x x0) + f''(x0)(x x0)^2/2! + f'''(x0)(x x0)^3/3! + ... 阅读全文
posted @ 2018-08-29 17:36 gogogo11 阅读(247) 评论(0) 推荐(0)
摘要:机器学习(包括监督学习, 无监督学习, 半监督学习与强化学习) 监督学习(包括分类与线性回归) 分类(标签的值为散列的"yes"或者"no", "good"或者"bad", "have"或者"don't have", 总之是bool值) 在分类中我已经将学习大致的思路讲完了, 所以下面就不会再重复了 阅读全文
posted @ 2018-08-29 17:35 gogogo11 阅读(107) 评论(0) 推荐(0)