机器学习 - 文章分类 - ivanthor

摘要：111 阅读全文

posted @ 2019-05-03 15:23 ivanthor 阅读(76) 评论(0) 推荐(0)

摘要：一、标准化（Z-Score），或者去除均值和方差缩放公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.pre 阅读全文

posted @ 2019-01-16 11:58 ivanthor 阅读(540) 评论(0) 推荐(0)

ml xgboost与adaboost集成算法

摘要：xgboost就是将一次次的分类结果慢慢集成到靠近结果的方法，比如目标是1000，第一次是900，第二次是50，第三次是20，最后的结果就是970，效果不错。 xgboost的算法推导在这里不赘述，在ppt里有详细介绍。 adaboost则是将一个个的数据一开始设置为一样的权重参数，然后比较分类结果阅读全文

posted @ 2018-10-01 04:24 ivanthor 阅读(139) 评论(0) 推荐(0)

ml 神经网络

摘要：待更阅读全文

posted @ 2018-10-01 02:08 ivanthor 阅读(63) 评论(0) 推荐(0)

ml PCA降维算法

摘要：PCA降维算法 PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。在这里，对于具体的算法概论不做过多的介绍，在 https://blog.csd 阅读全文

posted @ 2018-09-20 23:03 ivanthor 阅读(516) 评论(0) 推荐(0)

ml 聚类算法 k-means算法与DBSCAN算法

摘要：想理解的话，在：https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/ 是可视化展示算法的一些事例要想弄好的话，就用dbscan算法，速度方面稍慢一点另外，用spss可以很轻松的解决kmeans聚类的问题。代码实现还是阅读全文

posted @ 2018-09-16 16:06 ivanthor 阅读(707) 评论(0) 推荐(0)

ml 支持向量机（svm）、人脸识别小项目

摘要：SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。重要知识：决策边界、距离计算推导、支持向量（为什么叫支持向量机的原因）、soft-margin（软间隔）（松弛因子、c参数）阅读全文

posted @ 2018-09-15 12:09 ivanthor 阅读(602) 评论(0) 推荐(0)

ml 贝叶斯算法新闻分类项目实战+词云图

摘要：停用词表将新闻数据进行预处理利用jieba库，进行分词利用wordcloud制作词云图（目前包还没下载）利用tf—idf算法提取新闻关键字利用LDA建模提取搜集到所有新闻的关键字 LDA建模效果来看TfidfVectorizer比CountVectorizer更好一点。阅读全文

posted @ 2018-09-13 11:58 ivanthor 阅读(257) 评论(0) 推荐(0)

ml 贝叶斯算法

摘要：贝叶斯算法贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独阅读全文

posted @ 2018-09-11 12:12 ivanthor 阅读(205) 评论(0) 推荐(0)

ml 泰坦尼克号获救预测项目实战

摘要：想看吗。。。。我懒得写，加qq啦。761256405.另外说一下 python有个库很不错，sklearn库。机器学习必看阅读全文

posted @ 2018-09-09 21:29 ivanthor 阅读(84) 评论(0) 推荐(0)

ml 随机森林&集成方法及stacking模型

摘要：随机森林在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho 阅读全文

posted @ 2018-09-05 20:38 ivanthor 阅读(1181) 评论(0) 推荐(0)

ml 决策树

摘要：决策树算法决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他阅读全文

posted @ 2018-09-04 21:22 ivanthor 阅读(408) 评论(0) 推荐(0)

ml 逻辑回归-信用卡欺诈检测项目实战

摘要：实战目的：在检索了几十万的数据之后，对数据进行分析，需要检索有哪些是信用卡异常的用户。给出合理的模型使得预测值与实际相近。学到的东西：样本不均衡解决方案（过采样与下采样）、交叉验证、模型评估方法（recall值）、正则化惩罚、逻辑回归模型、混淆矩阵、逻辑回归的阈值对模型结果的影响、SMOTE算法解阅读全文

posted @ 2018-09-03 12:52 ivanthor 阅读(417) 评论(0) 推荐(0)

ml 逻辑回归算法学习笔记

摘要：logistic regression (逻辑回归算法) 下面的函数与图为logistic regression的核心 LR算法解决主要解决分类问题的判别概率问题。现在常用在垃圾邮件判别、推荐系统、疾病预测等场景中。一般用来判决某件事情属于某个分类的概率来确定类别。如：一封邮件是垃圾邮件概率是90 阅读全文

posted @ 2018-09-03 12:35 ivanthor 阅读(237) 评论(0) 推荐(0)

ml 梯度下降算法学习笔记

摘要：梯度下降梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小阅读全文

posted @ 2018-09-03 12:11 ivanthor 阅读(436) 评论(0) 推荐(0)

ml seaborn(数据可视化库)学习笔记

摘要：seaborn seaborn是基于plt的封装好的库。有很强的作图功能。 1、布局风格设置（图形的style）and 细节设置用matplotlib作图：输出：用seaborn的默认系统风格： import seaborn as sns import numpy as np import m 阅读全文

posted @ 2018-07-29 10:36 ivanthor 阅读(812) 评论(0) 推荐(0)

ml Matplotlib(数据可视化库)学习笔记

摘要：11Matplotlib 1、绘制折线图在pandas里面有一种数据类型为datatime ，可以将不规范的日期改为：xxxx-xx-xx 折线图这样就能绘制出一个折线图了如果横坐标写不下怎么办？我们可以将文字竖着写或者指定一个角度一般情况下要写横坐标与纵坐标要表达什么，还有标题输出：输阅读全文

posted @ 2018-07-26 15:36 ivanthor 阅读(225) 评论(0) 推荐(0)

ml pandas(数据分析处理库)学习笔记

摘要：pandas 数据读取索引，提取所需数据进行加减乘除运算添加一列的属性：（这个属性由已知属性计算得出）找出某一列的最大值对某一属性进行升序或者降序排序数据预处理经典案例：泰坦尼克号登船人员信息 q：年龄缺失的成员有多少人？ q：为什么要提取缺失成员并去掉？ a：如果有缺失值，不能对此属性阅读全文

posted @ 2018-07-25 11:30 ivanthor 阅读(300) 评论(0) 推荐(0)

ml 学习笔记2（Andrew Ng）多变量线性回归

摘要：2.1 多维特征房间数楼层：1 转置 2.2 多变量梯度下降代价函数：批量梯度算法： 2.3 梯度下降算法特征缩放如果参数范围过大导致图像使梯度下降算法需要非常多次迭代我们可以将所有特征的尺度都尽量缩放到-1到1之间最简单的方法是： 2.4 梯度下降算法学习率梯度下降算法收敛所需要阅读全文

posted @ 2018-07-24 14:44 ivanthor 阅读(167) 评论(0) 推荐(0)

ml 学习笔记1（Andrew Ng）梯度下降算法单变量线性回归

摘要：监督学习与无监督学习推荐使用：octave 一、单变量线性回归 1.1 模型表示分类问题（一种监督学习方式），监督学习中的数据集被称为训练集在之后的博客中，用小写的m表示训练样本的数目代表学习算法的解决方案或函数称为假设只含有一个特征/输入变量，叫做单变量线性回归问题 1.2 代价函数选阅读全文

posted @ 2018-07-24 11:27 ivanthor

ivan_xy

文章分类 - 机器学习

公告