随笔分类 -  机器学习

摘要:这个算法中文名为k均值聚类算法,首先我们在二维的特殊条件下讨论其实现的过程,方便大家理解。 第一步.随机生成质心 由于这是一个无监督学习的算法,因此我们首先在一个二维的坐标轴下随机给定一堆点,并随即给定两个质心,我们这个算法的目的就是将这一堆点根据它们自身的坐标特征分为两类,因此选取了两个质心,什么 阅读全文
posted @ 2019-07-14 22:54 Geeksongs 阅读(1935) 评论(0) 推荐(0)
摘要:我们在线性回归模型当中,时常遇到将w与b吸入w^的向量形式写为:w^=(x,b)进而写成y=w^(t)x^的形式,这仅仅是为了某些人看公式的方便,而不是处于实际的作用。具体将这两个参数吸入为向量的过程,我们可以看看下面的方案: 其实 ˆ w和 ˆ x在数学当中分别称为增广权重向量和增广特征向量,计算 阅读全文
posted @ 2019-07-09 11:01 Geeksongs 阅读(959) 评论(0) 推荐(0)
摘要:问题 说明: y、w为列向量,X为矩阵 式子演化 看到这个例子不要急着去查表求导,先看看它的形式,是u(w)∗v(w)的形式,这种形式一般求导较为复杂,因此为了简化运算,我们先把式子展开成下面的样子(注意:(Xw)T=wTXT): 然后就可以写成四个部分求导的形式如下(累加后求导=求导后累加): 求 阅读全文
posted @ 2019-07-07 21:50 Geeksongs 阅读(1916) 评论(0) 推荐(0)
摘要:当我们在求解梯度下降算法的时候,经常会用到正规方程来求解w的值,这个时候就用到正规方程来求解是最快的方法,但是正规方程又是怎么来的呢?我们来看看:首先我们设我们的损失函数为 MSE train,那么这个时候我们只需要对其求解偏导就好了,于是我们有∇ w MSE train = 0 。具体推导过程如下 阅读全文
posted @ 2019-07-07 20:18 Geeksongs 阅读(3065) 评论(0) 推荐(0)
摘要:我们在计算模型w的转置乘上x的时候,往往需要把w和x分别进行向量化然后运算,因为这样会使我们的计算机得到结果的时间更快,而且这种方法不管是在CPU还是在GPU上都是成立的,首先我们来看看代码: 第一种方法方法运用了向量化来计算,也就是numpy当中的dot函数来计算,第二种方法则是利用了我们传统的f 阅读全文
posted @ 2019-07-07 11:25 Geeksongs 阅读(1010) 评论(0) 推荐(0)
摘要:对于超大规模的csv文件,我们无法一下将其读入内存当中,只能分块一部分一部分的进行读取; 首先进行如下操作: 阅读全文
posted @ 2019-06-23 13:06 Geeksongs 阅读(1833) 评论(0) 推荐(0)
摘要:输出结果: 输入代码增加我们colums上的对象: 输出: 输入: 输出: 输入: 输出: 阅读全文
posted @ 2019-06-23 13:01 Geeksongs 阅读(2976) 评论(0) 推荐(0)
摘要:pip方式安装Jupyter 如你的cmd命令窗口无法识别pip命令,请配置下环境变量(将python的''Scripts''文件夹路径添加至''path''变量里面)。 使用以下命令更新pip和安装Jupyter jupyter notebook参考资料: Jupyter 官方说明 https:/ 阅读全文
posted @ 2019-06-21 12:30 Geeksongs 阅读(15219) 评论(1) 推荐(0)
摘要:数据的归一化 首先我们来看看归一化的概念: 数据的标准化(normalization)和归一化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进 阅读全文
posted @ 2019-06-13 16:31 Geeksongs 阅读(20623) 评论(0) 推荐(0)
摘要:代码如下: csv文件在github上:https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/data/president_heights.csv 输出结果是: 图像结果: 阅读全文
posted @ 2019-06-13 14:19 Geeksongs 阅读(1762) 评论(0) 推荐(1)
摘要:1.数组值的求和 首先构造一个具有100个值的数组,然后我们利用两个不同的方法进行求和: l的数据如下: 利用np里面的sum函数明显求和会更快,但是直接利用python当中的函数则会比较慢,这也是有科学依据的,但是我们只要记住即可,感兴趣的同学可以利用%timeit 来求出两个不同函数进行计算的时 阅读全文
posted @ 2019-06-13 13:01 Geeksongs 阅读(2978) 评论(0) 推荐(0)
摘要:一.数组的运算 数组的运算可以进行加减乘除,同时也可以将这些算数运算符进行任意的组合已达到效果。 二.绝对值的运算 一共有三种方法,第一种方法是直接利用不是NumPy库的abs函数进行计算,第二种和第三种方法则是利用numpy库的abs函数和absolute函数进行运算。如下所示: 三.三角函数的运 阅读全文
posted @ 2019-06-13 12:38 Geeksongs 阅读(4298) 评论(0) 推荐(0)
摘要:一.数组的拼接 输出:array([1, 2, 3, 4, 5, 6]) 输出: 输出: 如果我们不加上按照哪个轴(axis)进行拼接,那么则默认为通过第0个轴进行拼接,第0个轴是我们数组的横轴 第一个轴则是数组的数轴,我们平时画xy轴二维平面坐标系的时候,也是按照先横轴后数轴的形式来画的,这也是我 阅读全文
posted @ 2019-06-13 11:25 Geeksongs 阅读(7798) 评论(0) 推荐(1)
摘要:平时,可以借助计算机来判定一篇文章是否是体育类的新闻,或者是艺术类的新闻。因此我们可以借助线性回归模型对其进行判定。当然这个数学模型有多种实现手段,比如用分类器,随机梯度下降,感知机等机器学习模型进行判定,这里我们就不用展示了,直接用社会工业界所接受的方法来进行研究,因为自己用上述的方法只有科研才会 阅读全文
posted @ 2019-03-26 19:08 Geeksongs 阅读(444) 评论(0) 推荐(0)
摘要:随着机器学习技术越来越向着整个社会进行推广,因此学好线性代数和Python当中的numpy库就相当重要了。我们应该知道numpy库的使用是sklearn库和opencv库的基础。主要用于矩阵的计算。当然,我们做做数模或者人工神经网络建模也可以使用MATLAB。不过现在Python才是现在的主流,因为 阅读全文
posted @ 2019-03-26 18:57 Geeksongs 阅读(2301) 评论(0) 推荐(0)
摘要:下面展示利用Python实现基于最小二乘法的线性回归模型,同时不需要引入其他科学计算以及机器学习的库。 利用Python代码表示如下: #首先引入数据集x,和y的值的大小利用Python的数据结构:列表,来实现。 y=[4,8,13,35,34,67,78,89,100,101] x=[0,1,2, 阅读全文
posted @ 2019-03-26 18:49 Geeksongs 阅读(61966) 评论(0) 推荐(0)
摘要:运行结果是: pandas.errors.ParserError: Error tokenizing data. C error: out of memory 这是因为我的电脑内存太小,导致了内存溢出,因此换一台电脑就可以得到最终得分为72分的答案了。笔者最终排名位于全国前300名,算是一个个人感觉 阅读全文
posted @ 2018-10-24 18:22 Geeksongs 阅读(490) 评论(0) 推荐(0)
摘要:贝叶斯公式由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系。贝叶斯原本是个神父,他为了证明上帝的存在而发明了著名的贝叶斯公式。然而他本人并不知道他所发明的公式及其背后的思想对当今社会产生重大变革,最典型的的莫过于当今炙手可热的“人工智能+ 阅读全文
posted @ 2018-03-28 19:23 Geeksongs 阅读(5294) 评论(0) 推荐(0)

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.