机器学习 - 随笔分类 - 热之雪

CNN 常用的几个模型

摘要：LeNet5 论文：http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf LeNet-5：是Yann LeCun在1998年设计的用于手写数字识别的卷积神经网络，当年美国大多数银行就是用它来识别支票上面的手写数字的，它是早期卷积神经网络中最有代表性的阅读全文

posted @ 2018-10-01 11:31 热之雪阅读(19925) 评论(1) 推荐(0) 编辑

10种经典统计方法总结

摘要：判别模型误分点到超平面的距离对偶解法（Gram矩阵）多类分类，回归特征空间，样本点判别模型三要素： 1、距离度量：曼哈顿和欧氏距离 2、k值选取：（估计误差和近似误差），交叉验证求最优 3、分类决策：多数表决 kd树（构造和搜索，适用于训练实例远大于空间维数）特征与类别的联合概率布阅读全文

posted @ 2018-08-29 19:10 热之雪阅读(7426) 评论(0) 推荐(0) 编辑

NLTK的探索

摘要：使用nltk自带的继承于ClassifierI的投票器进行集体分类评估，模型包括nltk的classifier和sklearn的一些分类模型读取文本并统计出前3000的频繁词汇，然后标记这3000个词的好坏，具体判断标准看这3000词是否是事先有好坏标记的词袋里的词阅读全文

posted @ 2018-08-25 21:20 热之雪阅读(393) 评论(0) 推荐(0) 编辑

sklearn之特征提取（文本特征）

摘要：1、引言关于文本的提取有很多方法，本文主要探索下sklearn官方的文本特征提取功能。 2、文本特征提取文本分析是机器学习算法的主要应用领域。然而，原始数据，符号文字序列不能直接传递给算法，因为它们大多数要求具有固定长度的数字矩阵特征向量，而不是具有可变长度的原始文本文档。 sklearn提供阅读全文

posted @ 2018-08-21 16:57 热之雪阅读(8028) 评论(0) 推荐(0) 编辑

贝叶斯--旧金山犯罪分类预测和电影评价好坏 demo

摘要：来源引用：https://blog.csdn.net/han_xiaoyang/article/details/50629608 1、引言贝叶斯是经典的机器学习算法，朴素贝叶斯经常运用于机器学习的案例。比如说文本分类/垃圾邮件的分类/情感分析：在文本分类中，贝斯依旧占有一席之地，因为文本数据中，阅读全文

posted @ 2018-08-20 20:20 热之雪阅读(1430) 评论(0) 推荐(0) 编辑

基于keras中IMDB的文本分类 demo

摘要：本次demo主题是使用keras对IMDB影评进行文本分类： layers的概况 _________________________________________________________________ Layer (type) Output Shape Param # embedding 阅读全文

posted @ 2018-08-20 16:34 热之雪阅读(2509) 评论(0) 推荐(0) 编辑

泰坦尼克号之灾分析

摘要：大神经验： 1、应用机器学习，千万不要一上来就试图做到完美，先撸一个baseline的model出来，再进行后续的分析步骤，一步步提高，所谓后续步骤可能包括『分析model现在的状态(欠/过拟合)，分析我们使用的feature的作用大小，进行feature selection，以及我们模型下的ba 阅读全文

posted @ 2018-08-18 11:41 热之雪阅读(2198) 评论(1) 推荐(0) 编辑

pandas常用函数

摘要：关键词和导入在这个速查卡中，我们会用到一下缩写：您还需要执行以下导入才能开始： import pandas as pd import numpy as np 导入数据输出数据创建测试对象用于测试的代码查看/检查数据选择数据清洗筛选，排序和分组加入/合并统计以下这些都可以应用于阅读全文

posted @ 2018-08-15 13:12 热之雪阅读(8053) 评论(0) 推荐(1) 编辑

Handling Missing Values

摘要：1) A Simple Option: Drop Columns with Missing Values 如果这些列具有有用信息（在未丢失的位置），则在删除列时，模型将失去对此信息的访问权限。此外，如果您的测试数据在您的训练数据没有的地方缺少值，则会导致错误。 2) A Better Option 阅读全文

posted @ 2018-08-14 21:06 热之雪阅读(419) 评论(0) 推荐(0) 编辑

Data Visualisation Cheet Sheet

摘要：Univariate plotting with pandas import pandas as pd reviews = pd.read_csv("../input/wine-reviews/winemag-data_first150k.csv", index_col=0) reviews.hea 阅读全文

posted @ 2018-08-14 18:30 热之雪阅读(274) 评论(0) 推荐(0) 编辑

数据预处理

摘要：1、标准化，也称去均值和方差按比例缩放变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特征值减去均值，除以标准差。 2、最小-最大规范化将特征缩放至特定范围内，变换到[0,1]区间（也可以是其他固定最小最大值的区间） 3、缩放稀疏（矩阵）数据中心化稀疏( 阅读全文

posted @ 2018-08-10 15:47 热之雪阅读(221) 评论(0) 推荐(0) 编辑

集成方法

摘要：1、集成方法概述集成学习（Ensemble Learning）有时也被笼统地称作提升（Boosting）方法，广泛用于分类和回归任务。它最初的思想很简单：使用一些（不同的）方法改变原始训练样本的分布，从而构建多个不同的分类器，并将这些分类器线性组合得到一个更强大的分类器，来做最后的决策。也就是常说阅读全文

posted @ 2018-08-02 00:21 热之雪阅读(675) 评论(0) 推荐(0) 编辑

热之雪

随笔分类 - 机器学习

公告