随笔分类 -  机器学习

岭回归和Lasso回归以及norm1和norm2
摘要:norm代表的是距离,两个向量的距离;下图代表的就是p-norm,其实是对向量里面元素的一种运算; 最简单的距离计算(规范)是欧式距离(Euclidean distance),两点间距离是如下来算的,属于L2-norm: 另外一种就是出租车距离(也称之为曼哈顿距离):这是一种1-norm: L1-n 阅读全文

posted @ 2018-09-19 22:44 张叫兽的技术研究院 阅读(2865) 评论(0) 推荐(0)

如何画根据散列节点画一条二维曲线
摘要:Polynomial‘s Examples 一个二元线性数据学习的例子。初衷即使希望能够看到基于二次曲线的随机点,训练模型能够画出一条二次曲线。 首先是对6元素的数组进行reshape,3行2列。 通过Polynomial函数的fit_transform可以为其添加全“1”列,以及a*b, a*a, 阅读全文

posted @ 2018-09-09 19:45 张叫兽的技术研究院 阅读(361) 评论(0) 推荐(0)

学习曲线
摘要:Validation Set和Training Set,前者是用来验证的,后者是用来学的。 其实通过代码可以理解一下这两个数据集合: 通过for语句里面可以看到,y_train_predict其实是predict那个X_train的一个子集,作为y_train_predict则是对这个子集的一个预期 阅读全文

posted @ 2018-09-05 12:24 张叫兽的技术研究院 阅读(261) 评论(0) 推荐(0)

梯度下降
摘要:梯度下降是不同于Normal Equals的方式;梯度本质是一个试错过程,不断的尝试一个个theta,寻找能够使的成本函数值最小的可能性。所谓下降是指不断的theat的取值是不断小步减少的;梯度,是指这个减少是逐渐,非线性的。 梯度下降有三种常见的函数:批量梯度下降,随机梯度下降以及最小化梯度下降。 先来看批量梯度下降,在Normal Equal里面我们接触了函数MSE,那么在梯度下降里面我们还是... 阅读全文

posted @ 2018-08-13 20:21 张叫兽的技术研究院 阅读(406) 评论(0) 推荐(0)

关于value_count
摘要:value_counts将会对于指定列的数据进行group,然后统计出各个出现的值的数量,并且按照从高到低的顺序进行排序 输出: 代表Pclass这个字段共有三种值:1,2,3;出现的次数分别为216,184以及491,上面的列表就是按照出现“值”的数量从高到低排列以及数量进行排列; 原则即使:在对 阅读全文

posted @ 2018-08-12 22:43 张叫兽的技术研究院 阅读(1851) 评论(0) 推荐(0)

jupyter notebook的路径
摘要:跟你执行jupyter notebook的当前路径有关系;你在哪个路径下执行的这个语句,那么你就是以那个路径为基础的workspace 阅读全文

posted @ 2018-08-12 22:27 张叫兽的技术研究院 阅读(176) 评论(0) 推荐(0)

线性回归原理
摘要:首先要明白线性回归的基本公式: 向量的表达公式就是: 在机器学习里面,目标就是通过既有的X,y数据来推断出theta的值,来使得该公式最大化的接近点集区域;为了实现这个,采用的工具就是M均方差错误(Mean Square Error,MSE);就是让推断出来的theta和X的乘积于原始y数据之差尽量 阅读全文

posted @ 2018-08-08 13:57 张叫兽的技术研究院 阅读(217) 评论(0) 推荐(0)

机器学习Hands On Lab
摘要:fetch_data fetch_mldata默认路径是在scikit_learn_data路径下,mnist的mat文件其实直接放置到scikit_lean/mldata下面即可通过fetch_mldata中获取;当然路径信息其实是fetch_home函数中定义的; 洗牌训练数据 为了避免数据的有序对于训练的影响,有的时候需要对于数据进行随机排列;比如对于7万个手写数字的样本,前... 阅读全文

posted @ 2018-07-17 22:05 张叫兽的技术研究院 阅读(206) 评论(0) 推荐(0)

Decision_function:scores,predict以及其他
摘要:机器学习的评估 PR曲线用于positive类数据占比比较小,或者你更加在意false postion(相比于false negative);其他情况采用ROC曲线;比如Demo中手写体5的判断,因为只有少量5,所以从ROC上面来看分类效果不错,但是从PR曲线可以看到分类器效果不佳。 y_scores = sgd_clf.decision_function([some_digit]) deci... 阅读全文

posted @ 2018-07-17 22:02 张叫兽的技术研究院 阅读(12769) 评论(0) 推荐(0)

混淆矩阵
摘要:混淆矩阵(Confusion Matrix) 混淆矩阵是一个列表,里面包含了实际值和判断值的情况。下图是信息更加丰富的一张混淆矩阵图: 作为良好的学习模型,TN和TP值是高的,FP和FN值=0;但是很多场景下FP和FN都不是0,那么怎么评价个分类学习的效果(performance)呢? Accuracy:全准率 (TP+TN)/total = (100+50)/165 = ... 阅读全文

posted @ 2018-07-17 21:52 张叫兽的技术研究院 阅读(849) 评论(0) 推荐(0)

机器学习之画图
摘要:关于画图 在现实数字的时候代码如下: 注意reshape参数里面是长和宽,一定要保证长*宽的值是784;否则就会和数据本身不符,运行报错;(28,28)可过,(1, 784)亦可以通过。 imshow是设置图片的展示,cmap意思是color map,颜色方案,binary代表是白底黑字; 关于图谱 阅读全文

posted @ 2018-07-17 21:45 张叫兽的技术研究院 阅读(1134) 评论(0) 推荐(0)

数学思路
摘要:数学的基本思路就是描绘一个范围,然后告诉你我只是关注这个范围里面的一部分。算法其实也是如此。 阅读全文

posted @ 2018-07-08 16:08 张叫兽的技术研究院 阅读(181) 评论(0) 推荐(0)

sklearn的画图
摘要:from sklearn.metrics import roc_curve fpr, tpr, thresholds=roc_curve(y_train_5, y_scores) fpr, tpr >>> (array([0.00000000e+00, 0.00000000e+00, 1.83220 阅读全文

posted @ 2018-06-12 18:32 张叫兽的技术研究院 阅读(1391) 评论(0) 推荐(0)

Python与机器学习
摘要:pandas里面的对于数据操作比如where,drop以及dropna等都会有一个属性:inplace,这个单词意思是原地,如果inplace=true代表数据本身要返回(原地数据也会被改变);如果inplace=false(默认)代表只是返回数据一个副本(copy,原数据并不会被改变)。 Data 阅读全文

posted @ 2018-06-04 09:59 张叫兽的技术研究院 阅读(793) 评论(0) 推荐(0)

线性模型的fit,predict
摘要:线性模型的fit其实一个进行学习的过程,根据数据和标签进行学习;predict则是基于fit之后形成的模型,来决定指定的数据对应于标签(y_train_5)的值。 下面的是手写字母判断是否为“5” sgd_clf = SGDClassifier(random_state=42) sgd_clf.fi 阅读全文

posted @ 2018-06-03 18:49 张叫兽的技术研究院 阅读(1342) 评论(0) 推荐(1)

机器学习概念
摘要:极大似然 使用极大似然的大的前提是模型已知,数据独立同分布; 他的价值在于可以通过局部数据来获取全局的参数,具体的实现就是通过求导数为零的方式来创造 评估方法 评估就是利用测试数据来评估一下用训练数据训练的模型。 评估方法牵涉到一个很重要的环节就是对数据集进行划分;主要有三种:第一种留出法(leav 阅读全文

posted @ 2018-05-25 16:40 张叫兽的技术研究院 阅读(396) 评论(0) 推荐(0)

概率的解题思路
摘要:经历了马尔科夫链以及平稳随机过程的虐,我突然明白概率的解题思路,其实就是首先分析“基础场景”是连续还是离散,连续就考虑概率密度,离散就考虑概率;或者如果已经概率分布函数就利用概率分布函数; 然后基于基础场景再来分析采用那种数学特征,期望,方差,均值,还是协变量,或者复杂一点的方差函数,均值函数,自相 阅读全文

posted @ 2018-04-29 15:36 张叫兽的技术研究院 阅读(396) 评论(0) 推荐(0)

概率随记(一)
摘要:概率的价值 为什么要研究概率,是为了考察大量样本,主要是评估。其实某次取随机变量具体值并不重要,重要的是在广泛的目标产品中,到底出现某类产品的数量,比如评价两套生产线,评价N套工艺,比如郭台铭的生产线和深圳某个加工厂究竟哪个更好?在一定数量的场景下(在空间和时间以及时间样本都比较宽泛的条件)在来讲概 阅读全文

posted @ 2018-04-22 21:39 张叫兽的技术研究院 阅读(157) 评论(0) 推荐(0)

名词解析之泛化误差
摘要:原文:https://www.cnblogs.com/justcxtoworld/archive/2013/11/15/3425656.html 一:经验风险 机器学习本质上是一种对问题真实模型的逼近,这种近似模型也叫做一个假设。因为真实模型肯定是无法得到的,那我们的假设肯定与真实情况之间存在误差, 阅读全文

posted @ 2018-02-25 21:58 张叫兽的技术研究院 阅读(342) 评论(0) 推荐(0)

关于机器学习
摘要:学习的本质是积累样本 从机器学习的角度来看学习,其实就是为你创建样本,在学习的过程中就是不断的创建样本的过程,每个样本有粗有细,越细你的样本库越大,学习样本的同时你也是在给样本赋权志,所以一定要尽量学明白,只有看明白了,潜意识才会为你学习的东西赋权值,未来在解决问题的时候,才能够更好的解决问题 简单 阅读全文

posted @ 2018-02-21 19:53 张叫兽的技术研究院 阅读(164) 评论(0) 推荐(0)

导航