摘要:一、任务简介 假设身处这样一个场景,用户输入的是一个错误单词,而我们需要做的就是来预测出用户实际想输入的单词。如果这个单词是正确的,那么结果肯定就是自己本身了。如果用户实际输入tha,那这个单词肯定是错误的,我们就可以通过一种算法来得到用户可能实际上真正想输入的是the。这种算法可以通过贝叶斯算法来 阅读全文
posted @ 2019-08-19 15:27 |旧市拾荒| 阅读 (9) 评论 (0) 编辑
摘要:一、贝叶斯简介 贝叶斯(约1701-1761) Thomas Bayes,英国数学家,贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,生不逢时,死后它的作品才被世人认可。 贝叶斯要解决的问题: 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大? 逆向概率:如 阅读全文
posted @ 2019-08-17 22:05 |旧市拾荒| 阅读 (17) 评论 (0) 编辑
摘要:四、特征重要性衡量 通过上面可以发现准确率有小幅提升,但是似乎得到的结果还是不太理想。我们可以发现模型似乎优化的差不多了,使用的特征似乎也已经使用完了。准确率已经达到了瓶颈,但是如果我们还想提高精度的话,还是要回到最原始的数据集里面。对分类器的结果最大的影响还是输入的数据本身。接下来采用的方法一般是 阅读全文
posted @ 2019-08-12 09:24 |旧市拾荒| 阅读 (197) 评论 (0) 编辑
摘要:一、任务基础 泰坦尼克号沉没是历史上最著名的沉船事故之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸 阅读全文
posted @ 2019-08-10 17:00 |旧市拾荒| 阅读 (152) 评论 (0) 编辑
摘要:一、集成算法 目的:让机器学习效果更好,单个机器学习算法不行,就用多个机器算法集成。 Bagging模型:训练多个分类器取结果的平均 Boosting模型:从弱学习器开始加强,通过加权来进行训练(加入一棵树,要比原来强) Stacking模型:聚合多个分类或回归模型(可以分阶段来做) 二、Baggi 阅读全文
posted @ 2019-08-04 17:15 |旧市拾荒| 阅读 (111) 评论 (0) 编辑
摘要:一、任务基础 导入所需要的库 加载sklearn内置数据集 ,查看数据描述 数据集包含房价价格以及影响房价的一些因素 查看数据集维度 查看第一条数据 二、构造决策树模型 决策树模型参数: (1)criterion gini or entropy 基尼系数或者熵(2)splitter best or 阅读全文
posted @ 2019-07-30 09:19 |旧市拾荒| 阅读 (119) 评论 (0) 编辑
摘要:一、决策树 在机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数 阅读全文
posted @ 2019-07-28 15:17 |旧市拾荒| 阅读 (131) 评论 (0) 编辑
摘要:最近使用python操作文件,经常遇到编码错误的问题,例如: 我看百度的解决方法就是手动指定编码方式,类似于以下这种方式: 虽然这种类似的方法也能解决。但是这种方法只能靠运气去碰,如果刚好碰到文件编码和你指定的编码一致,那么就不会报错了。这种方式在尝试的过程就会很麻烦。 这里就有一个解决的小技巧,我 阅读全文
posted @ 2019-07-19 16:26 |旧市拾荒| 阅读 (16) 评论 (0) 编辑
摘要:六、混淆矩阵: 混淆矩阵是由一个坐标系组成的,有x轴以及y轴,在x轴里面有0和1,在y轴里面有0和1。x轴表达的是预测的值,y轴表达的是真实的值。可以对比真实值与预测值之间的差异,可以计算当前模型衡量的指标值。 这里精度的表示:(136+138)/(136+13+9+138)。之前有提到recall 阅读全文
posted @ 2019-07-19 09:21 |旧市拾荒| 阅读 (229) 评论 (0) 编辑
摘要:一、任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据。此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷。数据集非常不平衡,正例(被盗刷)占所有交易的0.172%。,这是因为由于保密问题,我们无法提供有关数据的原始功能和更多背景信息。特征V1,V2,... V 阅读全文
posted @ 2019-07-18 22:07 |旧市拾荒| 阅读 (345) 评论 (0) 编辑
摘要:一、任务基础 我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据,你可以用它作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类 阅读全文
posted @ 2019-07-10 09:44 |旧市拾荒| 阅读 (224) 评论 (0) 编辑
摘要:一、逻辑回归 逻辑回归也被称为对数几率回归,算法名虽然叫做逻辑回归,但是该算法是分类算法,这是因为逻辑回归用了和回归类似的方法来解决了分类问题。 机器学习基本原则:先逻辑回归再用复杂的,能简单还是用简单的。 逻辑回归的决策边界:可以是非线性的。 二、Sigmoid函数 Sigmoid函数公式: 函数 阅读全文
posted @ 2019-07-06 16:08 |旧市拾荒| 阅读 (29) 评论 (0) 编辑
摘要:一、梯度下降 引入:当我们得到了一个目标函数后,如何进行求解?直接求解吗?(并不一定可以直接求解,线性回归可以当做是一个特例) 梯度:梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。在机器 阅读全文
posted @ 2019-07-03 23:10 |旧市拾荒| 阅读 (28) 评论 (0) 编辑
摘要:机器学习的有监督算法分为分类和回归两种。 回归:通过输入的数据,预测出一个值,如银行贷款,预测银行给你贷多少钱。 分类:通过输入的数据,得到类别。如,根据输入的数据,银行判断是否给你贷款。 一、线性回归 现在这里有一个例子 数据:工资和年龄(2个特征) 目标:预测银行会贷款给我多少钱(标签) 考虑: 阅读全文
posted @ 2019-07-03 22:08 |旧市拾荒| 阅读 (59) 评论 (0) 编辑
摘要:一、Spark RDD容错原理 RDD不同的依赖关系导致Spark对不同的依赖关系有不同的处理方式。 对于宽依赖而言,由于宽依赖实质是指父RDD的一个分区会对应一个子RDD的多个分区,在此情况下出现部分计算结果丢失,单一计算丢失的数据无法达到效果,便采用重新计算该步骤中的所有数据,从而会导致计算数据 阅读全文
posted @ 2019-06-22 21:57 |旧市拾荒| 阅读 (99) 评论 (0) 编辑