博客园  :: 首页  :: 新随笔  :: 管理

随笔分类 -  机器学习

机器学习实战、神经网络与深度学习 笔记
摘要:svd 奇异值分解(singular value decomposition,SVD) 不明觉厉 ^d^ SVD矩阵分解:利用SVD算法,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。从生物信息学到金融学等在内的很多应用中,SVD都是提取信息的强大工具。 阅读全文

posted @ 2020-11-24 20:07 wsg_blog 阅读(144) 评论(0) 推荐(0)

摘要:PCA是用来给多维数据降维,分析提取主成分的一种算法; 优点:降低数据的复杂性,识别最重要的多个特征。缺点:不一定需要,且可能损失有用信息。适用数据类型:数值型数据。 如何理解主元分析(PCA) 怎么实现的呢?首先说明,在已标注和未标注的数据上都有降维技术,PCA是一种在对未标注数据的降维技术。 在 阅读全文

posted @ 2020-11-04 16:07 wsg_blog 阅读(466) 评论(0) 推荐(0)

摘要:Apriori算法可以实现什么: 关联分析中最有名的例子是“尿布与啤酒”。据报道,美国中西部的一家连锁店发现,男人们会在周四购买尿布和啤酒。这样商店实际上可以将尿布与啤酒放在一块,并确保在周四全价销售从而获利,更多详细应用百度百科apriori 原理: Apriori关联分析算法实现起来可能会复杂一 阅读全文

posted @ 2020-11-03 17:08 wsg_blog 阅读(1022) 评论(0) 推荐(0)

摘要:首先看张图,无监督学习属于机器学习的范畴,主要的方法为“聚类”、“降维” 本系列博客将写一下对无监督学习的理解和简单的python代码应用 二分K-均值聚类算法 五种算法玩转聚类 apriori关联分析 主成成分分析-PCA(principal component annlysis)-数据降维 奇异 阅读全文

posted @ 2020-10-23 16:03 wsg_blog 阅读(168) 评论(0) 推荐(0)

摘要:二分k均值聚类是k均值聚类的增强版:为克服K-均值算法收敛于局部最小值的问题,有人提出了另一个称为二分K-均值(bisecting K-means)的算法。 #K-means聚类 from numpy import * import matplotlib.pyplot as plt plt.ion( 阅读全文

posted @ 2020-09-03 17:28 wsg_blog 阅读(1721) 评论(0) 推荐(0)

摘要:#svm 支持向量机(Support Vector Machines, SVM) ''' 有些人认为,svm是最好的现成的分类器,这里说的“现成”指的是分类器不加修改即可直接使用。同时, 这就意味着在数据上应用基本形式的SVM分类器就可以得到低错误率的结果。SVM能够对训练集之外的数据点 做出很好的 阅读全文

posted @ 2020-08-25 17:32 wsg_blog 阅读(328) 评论(0) 推荐(0)

摘要:本篇用到的数据,链接:https://pan.baidu.com/s/1DVr3Ke7jfz3dQzXwz4BjGg 提取码:v8fo #logistic逻辑回归、最优化算法 ''' 下面主要说下 sigmoid函数和logistic回归分类器 最优化理论初步 梯度下降最优化算法 数据中的缺失项处理 阅读全文

posted @ 2020-08-11 15:44 wsg_blog 阅读(790) 评论(0) 推荐(0)

摘要:#基于概率论的分类方法:朴素贝叶斯 ''' 优点:在数据较少的情况下任然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 适用数据类型:标称型数据 贝叶斯概率引入先验知识和逻辑推理来处理不确定命题。 朴素贝叶斯的一般过程: 1.收集数据:可以使用任何方法。本章使用RSS源。 2.准 阅读全文

posted @ 2020-08-07 15:43 wsg_blog 阅读(352) 评论(0) 推荐(0)

摘要:本系列博客为学习《机器学习实战》学习笔记与代码实现 目录: k-近邻算法实现“电影、约会网站、手写数字识别”分类 决策树原理及分类实战 基于概率论的分类方法:朴素贝叶斯 logistic逻辑回归、最优化算法 支持向量机(SVM) 二分K-均值聚类算法 使用Apriori算法进行关联分析 主成成分分析 阅读全文

posted @ 2020-08-05 14:32 wsg_blog 阅读(193) 评论(0) 推荐(0)

摘要:#决策树#环境:Linux、python3.7.5 ''' 决策树的一个重要任务是为了了解数据结构中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则, 这些机器根据数据集创建规则的过程,就是机器学习的过程。专家系统中经常使用决策树,而且决策树给出结果往往可以匹敌在当前 领 阅读全文

posted @ 2020-08-05 14:26 wsg_blog 阅读(674) 评论(0) 推荐(0)

摘要:环境:Linux、python3.7.5 需要的数据集:链接: https://pan.baidu.com/s/1KdH1DgErvgu4GC8MrwY-FA 提取码: wb3h 代码如下 #k-近邻算法概述 ''' 简单的说k-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异 阅读全文

posted @ 2020-08-02 14:57 wsg_blog 阅读(562) 评论(0) 推荐(0)

摘要:前言:tf-idf是很巧妙的算法,朴素贝叶斯也是很巧妙的算法,我尽量用最简短的语言进行描述,唯一不足的就是这个贝叶斯有点朴素,丢掉了很多特征的关联信息,而且tf-idf提出的这些特征是one-hot的,除了颗粒度粗点以外,对付5000标签分类量级,6000w预测数据(短标题)还是可以的;而且模型训练 阅读全文

posted @ 2019-12-13 13:07 wsg_blog 阅读(3678) 评论(0) 推荐(0)