随笔分类 -  【A】机器学习

摘要:一、任务 这次我们将了解在机器学习中支持向量机的使用方法以及一些参数的调整。支持向量机的基本原理就是将低维不可分问题转换为高维可分问题,在前面的博客具体介绍过了,这里就不再介绍了。 首先导入相关标准库: 作为一个例子,首先我们随机生成一些数据,考虑分类任务的简单情况,其中两个类别的点是良好分隔的: 阅读全文
posted @ 2019-09-28 22:04 |旧市拾荒| 阅读(8556) 评论(0) 推荐(3)
摘要:五、SVM求解实例 上面其实已经得出最终的表达式了,下面我们会根据一些具体的点来求解α的值。数据:3个点,其中正例 X1(3,3) ,X2(4,3) ,负例X3(1,1) 如下图所示 我们需要求解下式的极小值 注意约束条件(在这里不要忘记了yi代表的是数据的类别,+1代表正例,-1代表负例) 代入数 阅读全文
posted @ 2019-09-16 11:34 |旧市拾荒| 阅读(1455) 评论(0) 推荐(0)
摘要:一、问题引入 支持向量机(SVM,Support Vector Machine)在2012年前还是很牛逼的,但是在12年之后神经网络更牛逼些,但是由于应用场景以及应用算法的不同,我们还是很有必要了解SVM的,而且在面试的过程中SVM一般都会问到。支持向量机是一个非常经典且高效的分类模型。我们的目标: 阅读全文
posted @ 2019-09-15 22:18 |旧市拾荒| 阅读(2876) 评论(0) 推荐(0)
摘要:五、TF-IDF以及LDA主题模型 TF-IDF关键词提取 可以得到第2400条数据以及关键词 从最后一句话就可以大致得到这段文章的大致意思,那这些词就是这段文章的关键词。 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,它是一种主题模型,它包含文章,主题和词 阅读全文
posted @ 2019-09-04 08:22 |旧市拾荒| 阅读(2950) 评论(0) 推荐(4)
摘要:一、基础知识 假设有一份文本数据如下,数据量很大,现在要对整个语料库进行文本分析,category代表新闻种类,theme代表新闻主题,URL代表新闻链接地址,content代表新闻主题内容 停用词:在content这一列,在数据量很大的情况,很容易发现某些似乎与新闻本身意义不大的词大量出现,而我们 阅读全文
posted @ 2019-09-03 15:47 |旧市拾荒| 阅读(4870) 评论(0) 推荐(4)
摘要:一、任务简介 假设身处这样一个场景,用户输入的是一个错误单词,而我们需要做的就是来预测出用户实际想输入的单词。如果这个单词是正确的,那么结果肯定就是自己本身了。如果用户实际输入tha,那这个单词肯定是错误的,我们就可以通过一种算法来得到用户可能实际上真正想输入的是the。这种算法可以通过贝叶斯算法来 阅读全文
posted @ 2019-08-19 15:27 |旧市拾荒| 阅读(858) 评论(0) 推荐(0)
摘要:一、贝叶斯简介 贝叶斯(约1701-1761) Thomas Bayes,英国数学家,贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,生不逢时,死后它的作品才被世人认可。 贝叶斯要解决的问题: 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大? 逆向概率:如 阅读全文
posted @ 2019-08-17 22:05 |旧市拾荒| 阅读(848) 评论(0) 推荐(0)
摘要:四、特征重要性衡量 通过上面可以发现准确率有小幅提升,但是似乎得到的结果还是不太理想。我们可以发现模型似乎优化的差不多了,使用的特征似乎也已经使用完了。准确率已经达到了瓶颈,但是如果我们还想提高精度的话,还是要回到最原始的数据集里面。对分类器的结果最大的影响还是输入的数据本身。接下来采用的方法一般是 阅读全文
posted @ 2019-08-12 09:24 |旧市拾荒| 阅读(2149) 评论(0) 推荐(2)
摘要:一、任务基础 泰坦尼克号沉没是历史上最著名的沉船事故之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸 阅读全文
posted @ 2019-08-10 17:00 |旧市拾荒| 阅读(8080) 评论(3) 推荐(2)
摘要:一、集成算法 目的:让机器学习效果更好,单个机器学习算法不行,就用多个机器算法集成。 Bagging模型:训练多个分类器取结果的平均 Boosting模型:从弱学习器开始加强,通过加权来进行训练(加入一棵树,要比原来强) Stacking模型:聚合多个分类或回归模型(可以分阶段来做) 二、Baggi 阅读全文
posted @ 2019-08-04 17:15 |旧市拾荒| 阅读(712) 评论(0) 推荐(0)
摘要:一、任务基础 导入所需要的库 加载sklearn内置数据集 ,查看数据描述 数据集包含房价价格以及影响房价的一些因素 查看数据集维度 查看第一条数据 二、构造决策树模型 决策树模型参数: (1)criterion gini or entropy 基尼系数或者熵(2)splitter best or 阅读全文
posted @ 2019-07-30 09:19 |旧市拾荒| 阅读(2877) 评论(0) 推荐(1)
摘要:一、决策树 在机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数 阅读全文
posted @ 2019-07-28 15:17 |旧市拾荒| 阅读(960) 评论(0) 推荐(0)
摘要:六、混淆矩阵: 混淆矩阵是由一个坐标系组成的,有x轴以及y轴,在x轴里面有0和1,在y轴里面有0和1。x轴表达的是预测的值,y轴表达的是真实的值。可以对比真实值与预测值之间的差异,可以计算当前模型衡量的指标值。 这里精度的表示:(136+138)/(136+13+9+138)。之前有提到recall 阅读全文
posted @ 2019-07-19 09:21 |旧市拾荒| 阅读(3447) 评论(2) 推荐(1)
摘要:一、任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据。此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷。数据集非常不平衡,正例(被盗刷)占所有交易的0.172%。,这是因为由于保密问题,我们无法提供有关数据的原始功能和更多背景信息。特征V1,V2,... V 阅读全文
posted @ 2019-07-18 22:07 |旧市拾荒| 阅读(10046) 评论(2) 推荐(4)
摘要:一、任务基础 我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据,你可以用它作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类 阅读全文
posted @ 2019-07-10 09:44 |旧市拾荒| 阅读(2375) 评论(0) 推荐(1)
摘要:一、逻辑回归 逻辑回归也被称为对数几率回归,算法名虽然叫做逻辑回归,但是该算法是分类算法,这是因为逻辑回归用了和回归类似的方法来解决了分类问题。 机器学习基本原则:先逻辑回归再用复杂的,能简单还是用简单的。 逻辑回归的决策边界:可以是非线性的。 二、Sigmoid函数 Sigmoid函数公式: 函数 阅读全文
posted @ 2019-07-06 16:08 |旧市拾荒| 阅读(543) 评论(0) 推荐(0)
摘要:一、梯度下降 引入:当我们得到了一个目标函数后,如何进行求解?直接求解吗?(并不一定可以直接求解,线性回归可以当做是一个特例) 梯度:梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。在机器 阅读全文
posted @ 2019-07-03 23:10 |旧市拾荒| 阅读(755) 评论(0) 推荐(0)
摘要:机器学习的有监督算法分为分类和回归两种。 回归:通过输入的数据,预测出一个值,如银行贷款,预测银行给你贷多少钱。 分类:通过输入的数据,得到类别。如,根据输入的数据,银行判断是否给你贷款。 一、线性回归 现在这里有一个例子 数据:工资和年龄(2个特征) 目标:预测银行会贷款给我多少钱(标签) 考虑: 阅读全文
posted @ 2019-07-03 22:08 |旧市拾荒| 阅读(1338) 评论(0) 推荐(0)
摘要:实例要求:以sklearn库自带的iris数据集为例,使用sklearn估计器构建K-Means聚类模型,并且完成预测类别功能以及聚类结果可视化。 实例代码: 实例结果: 构建的K-Means模型为: 花瓣预测结果: 聚类结果可视化: 阅读全文
posted @ 2018-12-27 20:42 |旧市拾荒| 阅读(3301) 评论(0) 推荐(0)