随笔分类 -  机器学习

摘要:LeNet5 论文:http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf LeNet-5:是Yann LeCun在1998年设计的用于手写数字识别的卷积神经网络,当年美国大多数银行就是用它来识别支票上面的手写数字的,它是早期卷积神经网络中最有代表性的 阅读全文
posted @ 2018-10-01 11:31 热之雪 阅读(19925) 评论(1) 推荐(0) 编辑
摘要:判别模型 误分点到超平面的距离 对偶解法(Gram矩阵) 多类分类, 回归 特征空间, 样本点 判别模型 三要素: 1、距离度量:曼哈顿和欧氏距离 2、k值选取:(估计误差和近似误差),交叉验证求最优 3、分类决策:多数表决 kd树(构造和搜索,适用于训练实例远大于空间维数) 特征与类别的联合概率布 阅读全文
posted @ 2018-08-29 19:10 热之雪 阅读(7426) 评论(0) 推荐(0) 编辑
摘要:使用nltk自带的继承于ClassifierI的投票器进行集体分类评估,模型包括nltk的classifier和sklearn的一些分类模型 读取文本并统计出前3000的频繁词汇,然后标记这3000个词的好坏,具体判断标准看这3000词是否是事先有好坏标记的词袋里的词 阅读全文
posted @ 2018-08-25 21:20 热之雪 阅读(393) 评论(0) 推荐(0) 编辑
摘要:1、引言 关于文本的提取有很多方法,本文主要探索下sklearn官方的文本特征提取功能。 2、文本特征提取 文本分析是机器学习算法的主要应用领域。 然而,原始数据,符号文字序列不能直接传递给算法,因为它们大多数要求具有固定长度的数字矩阵特征向量,而不是具有可变长度的原始文本文档。 sklearn提供 阅读全文
posted @ 2018-08-21 16:57 热之雪 阅读(8028) 评论(0) 推荐(0) 编辑
摘要:来源引用:https://blog.csdn.net/han_xiaoyang/article/details/50629608 1、引言 贝叶斯是经典的机器学习算法,朴素贝叶斯经常运用于机器学习的案例。比如说 文本分类/垃圾邮件的分类/情感分析:在文本分类中,贝斯依旧占有一席之地,因为文本数据中, 阅读全文
posted @ 2018-08-20 20:20 热之雪 阅读(1430) 评论(0) 推荐(0) 编辑
摘要:本次demo主题是使用keras对IMDB影评进行文本分类: layers的概况 _________________________________________________________________ Layer (type) Output Shape Param # embedding 阅读全文
posted @ 2018-08-20 16:34 热之雪 阅读(2509) 评论(0) 推荐(0) 编辑
摘要:大神经验: 1、 应用机器学习,千万不要一上来就试图做到完美,先撸一个baseline的model出来,再进行后续的分析步骤,一步步提高,所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的feature的作用大小,进行feature selection,以及我们模型下的ba 阅读全文
posted @ 2018-08-18 11:41 热之雪 阅读(2198) 评论(1) 推荐(0) 编辑
摘要:关键词和导入 在这个速查卡中,我们会用到一下缩写: 您还需要执行以下导入才能开始: import pandas as pd import numpy as np 导入数据 输出数据 创建测试对象 用于测试的代码 查看/检查数据 选择 数据清洗 筛选,排序和分组 加入/合并 统计 以下这些都可以应用于 阅读全文
posted @ 2018-08-15 13:12 热之雪 阅读(8053) 评论(0) 推荐(1) 编辑
摘要:1) A Simple Option: Drop Columns with Missing Values 如果这些列具有有用信息(在未丢失的位置),则在删除列时,模型将失去对此信息的访问权限。 此外,如果您的测试数据在您的训练数据没有的地方缺少值,则会导致错误。 2) A Better Option 阅读全文
posted @ 2018-08-14 21:06 热之雪 阅读(419) 评论(0) 推荐(0) 编辑
摘要:Univariate plotting with pandas import pandas as pd reviews = pd.read_csv("../input/wine-reviews/winemag-data_first150k.csv", index_col=0) reviews.hea 阅读全文
posted @ 2018-08-14 18:30 热之雪 阅读(274) 评论(0) 推荐(0) 编辑
摘要:1、标准化,也称去均值和方差按比例缩放 变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。 2、最小-最大规范化 将特征缩放至特定范围内,变换到[0,1]区间(也可以是其他固定最小最大值的区间) 3、缩放稀疏(矩阵)数据 中心化稀疏( 阅读全文
posted @ 2018-08-10 15:47 热之雪 阅读(221) 评论(0) 推荐(0) 编辑
摘要:1、集成方法概述 集成学习(Ensemble Learning)有时也被笼统地称作提升(Boosting)方法,广泛用于分类和回归任务。它最初的思想很简单:使用一些(不同的)方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分类器,来做最后的决策。也就是常说 阅读全文
posted @ 2018-08-02 00:21 热之雪 阅读(675) 评论(0) 推荐(0) 编辑