文章分类 - 机器学习
摘要:一、标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std 计算时对每个属性/每列分别进行。 将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。 实现时,有两种不同的方式: 使用sklearn.pre
阅读全文
摘要:xgboost就是将一次次的分类结果慢慢集成到靠近结果的方法,比如目标是1000,第一次是900,第二次是50,第三次是20,最后的结果就是970,效果不错。 xgboost的算法推导在这里不赘述,在ppt里有详细介绍。 adaboost则是将一个个的数据一开始设置为一样的权重参数,然后比较分类结果
阅读全文
摘要:PCA降维算法 PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 在这里,对于具体的算法概论不做过多的介绍,在 https://blog.csd
阅读全文
摘要:想理解的话,在:https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/ 是可视化展示算法的一些事例 要想弄好的话,就用dbscan算法,速度方面稍慢一点 另外,用spss可以很轻松的解决kmeans聚类的问题。 代码实现还是
阅读全文
摘要:SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。 重要知识:决策边界、距离计算推导、支持向量(为什么叫支持向量机的原因)、soft-margin(软间隔)(松弛因子、c参数)
阅读全文
摘要:停用词表 将新闻数据进行预处理 利用jieba库,进行分词 利用wordcloud制作词云图 (目前包还没下载) 利用tf—idf算法提取新闻关键字 利用LDA建模提取搜集到所有新闻的关键字 LDA建模效果来看TfidfVectorizer比CountVectorizer更好一点。
阅读全文
摘要:贝叶斯算法 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。 由于贝叶斯定理假设一个属性值对给定类的影响独
阅读全文
摘要:想看吗。。。。我懒得写,加qq啦。761256405.另外说一下 python有个库很不错,sklearn库。机器学习必看
阅读全文
摘要:随机森林 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho
阅读全文
摘要:决策树算法 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他
阅读全文
摘要:实战目的:在检索了几十万的数据之后,对数据进行分析,需要检索有哪些是信用卡异常的用户。给出合理的模型使得预测值与实际相近。 学到的东西:样本不均衡解决方案(过采样与下采样)、交叉验证、模型评估方法(recall值)、正则化惩罚、逻辑回归模型、混淆矩阵、逻辑回归的阈值对模型结果的影响、SMOTE算法解
阅读全文
摘要:logistic regression (逻辑回归算法) 下面的函数与图为logistic regression的核心 LR算法解决主要解决分类问题的判别概率问题。现在常用在垃圾邮件判别、推荐系统、疾病预测等场景中。一般用来判决某件 事情属于某个分类的概率来确定类别。如:一封邮件是垃圾邮件概率是90
阅读全文
摘要:梯度下降 梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小
阅读全文
摘要:seaborn seaborn是基于plt的封装好的库。有很强的作图功能。 1、布局风格设置(图形的style)and 细节设置 用matplotlib作图: 输出: 用seaborn的默认系统风格: import seaborn as sns import numpy as np import m
阅读全文
摘要:11Matplotlib 1、绘制折线图 在pandas里面有一种数据类型为datatime ,可以将不规范的日期改为:xxxx-xx-xx 折线图 这样就能绘制出一个折线图了 如果横坐标写不下怎么办?我们可以将文字竖着写或者指定一个角度 一般情况下要写横坐标与纵坐标要表达什么,还有标题 输出: 输
阅读全文
摘要:pandas 数据读取 索引,提取所需数据 进行加减乘除运算 添加一列的属性:(这个属性由已知属性计算得出) 找出某一列的最大值 对某一属性进行升序或者降序排序 数据预处理经典案例:泰坦尼克号登船人员信息 q:年龄缺失的成员有多少人? q:为什么要提取缺失成员并去掉? a:如果有缺失值,不能对此属性
阅读全文
摘要:2.1 多维特征 房间数楼层:1 转置 2.2 多变量梯度下降 代价函数: 批量梯度算法: 2.3 梯度下降算法 特征缩放 如果参数范围过大导致图像使梯度下降算法需要非常多次迭代 我们可以将所有特征的尺度都尽量缩放到-1到1之间 最简单的方法是: 2.4 梯度下降算法 学习率 梯度下降算法收敛所需要
阅读全文
摘要:监督学习与无监督学习 推荐使用:octave 一、单变量线性回归 1.1 模型表示 分类问题(一种监督学习方式),监督学习中的数据集被称为训练集 在之后的博客中,用小写的m表示训练样本的数目 代表学习算法的解决方案或函数称为假设 只含有一个特征/输入变量,叫做单变量线性回归问题 1.2 代价函数 选
阅读全文
posted @ 2018-07-24 11:27
ivanthor

浙公网安备 33010602011771号