摘要: (1)时间频度一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试,只需知道哪个算法花费的时间多,哪个算法花费的时间少就可以了。并且一个算法花费的时间与算法中语句的执行次数成正比例,哪个算法中语句执行次数多,它花费时间就多。一个算法中 阅读全文
posted @ 2019-10-31 19:57 笔记记忆 阅读(311) 评论(0) 推荐(0)
摘要: 看了好久的KMP算法,都一直没有看明白,直到看到了这篇博客http://www.tuicool.com/articles/e2Qbyyf 让我瞬间顿悟。 如果你看不懂 KMP 算法,那就看一看这篇文章 ( 绝对原创,绝对通俗易懂 ) KMP 算法,俗称“看毛片”算法,是字符串匹配中的很强大的一个算法 阅读全文
posted @ 2019-10-31 19:56 笔记记忆 阅读(209) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/jiewei915/archive/2010/08/09/1796042.html 哈希表是种数据结构,它可以提供快速的插入操作和查找操作。第一次接触哈希表时,它的优点多得让人难以置信。不论哈希表中有多少数据,插入和删除(有时包括侧除)只需要接近常 阅读全文
posted @ 2019-10-31 19:56 笔记记忆 阅读(134) 评论(0) 推荐(0)
摘要: 转自 http://blog.csdn.net/jobbofhe/article/details/51426934 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。 我们这里说说八大排序就是内部排序。 阅读全文
posted @ 2019-10-31 19:54 笔记记忆 阅读(336) 评论(0) 推荐(0)
摘要: 霍夫丁不等式与真实的机器学习 1.霍夫丁不等式 在一个罐子里,放着很多小球,他们分两种颜色{橘色,绿色}。从罐中随机抓N个小球。设:罐中橘色球的比例为μ(未知),抓出来的样本中橘色球的比例为ν(已知)。根据概率论中的霍夫丁不等式(Hoeffding’s Inequality)若N足够大,ν就很可能接 阅读全文
posted @ 2019-10-31 19:30 笔记记忆 阅读(300) 评论(0) 推荐(0)
摘要: for batch&supervised binary classfication,g≈f <=> Eout(g)≥0 achieved through Eout(g)≈Ein(g) and Ein(g)≈0 其中Ein是某一个备选函数h在数据D上犯错误的比例,在整个数据集上犯错误的比例为Eout 阅读全文
posted @ 2019-10-31 19:27 笔记记忆 阅读(305) 评论(0) 推荐(0)
摘要: 过拟合: Overfitting就是指Ein(在训练集上的错误率)变小,Eout(在整个数据集上的错误率)变大的过程 Underfitting是指Ein和Eout都变大的过程 从上边这个图中,虚线的左侧是underfitting,右侧是overfitting,发生overfitting的主要原因是: 阅读全文
posted @ 2019-10-31 19:25 笔记记忆 阅读(244) 评论(0) 推荐(0)
摘要: Online Learning是工业界比较常用的机器学习算法,在很多场景下都能有很好的效果。本文主要介绍Online Learning的基本原理和两种常用的Online Learning算法:FTRL(Follow The Regularized Leader)[1]和BPR(Bayesian Pr 阅读全文
posted @ 2019-10-31 19:24 笔记记忆 阅读(494) 评论(0) 推荐(0)
摘要: 转自http://www.cnblogs.com/huashiyiqike/p/3568922.html在学习算法的过程中,常常需要用到向量的求导。下边是向量的求导法则。 拉格朗日乘子法:应用在求有约束条件的函数的极值问题上。 通常我们需要求解的最优化问题有如下几类: (i) 无约束优化问题,可以写 阅读全文
posted @ 2019-10-31 19:20 笔记记忆 阅读(4733) 评论(0) 推荐(0)
摘要: 边界函数Bounding Function(成长函数的上界) 根据成长函数的定义,猜测 ——>break point K restricts maximum possible mh(N) a lot for N>k bounding functionB(N, k): maximum possible 阅读全文
posted @ 2019-10-31 19:18 笔记记忆 阅读(3201) 评论(0) 推荐(0)
摘要: (1)定义VC Dimension: dichotomies数量的上限是成长函数,成长函数的上限是边界函数: 所以VC Bound可以改写成: 下面我们定义VC Dimension: 对于某个备选函数集H,VC Dimension就是它所能shatter的最大数据个数N。VC Dimension = 阅读全文
posted @ 2019-10-31 19:17 笔记记忆 阅读(834) 评论(0) 推荐(0)
摘要: 这里主要总结Linear Regression,Linear Classification,Logistic Regression。 1.Linear Regression 线性回归的基本思想:寻找直线/平面/超平面,使得输入数据的残差最小 线性回归算法: 最终的线性回归的结果为: 其中:X+ 的求 阅读全文
posted @ 2019-10-31 19:16 笔记记忆 阅读(372) 评论(0) 推荐(0)
摘要: 错误衡量(Error Measure) 有两种错误计算方法: 第一种叫0/1错误,只要【预测≠目标】则认为犯错,通常用于分类;通常选择,错误比较大的值作为y˜的值 第二种叫平方错误,它衡量【预测与目标之间的距离】,通常用于回归。通常选择,错误均值作为y˜的值 举例说明: 还有一种错误叫做,均值错误e 阅读全文
posted @ 2019-10-31 19:15 笔记记忆 阅读(223) 评论(0) 推荐(0)
摘要: 多分类问题:有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个而分类任务求解,最经典的拆分策略是:“一对一”,“一对多”,“多对多” (1)一对一 给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2,...,cN 阅读全文
posted @ 2019-10-31 19:14 笔记记忆 阅读(1656) 评论(0) 推荐(0)
摘要: 别人的决策树笔记:http://blog.csdn.net/sb19931201/article/details/52491430 决策树是一种最常见的分类模型,决策树是基于树结构来进行决策的,一个决策树的图如下所示 决策过程的最终结论对应了我们希望的判定结果。 决策树的基本学习算法如下: 构建树的 阅读全文
posted @ 2019-10-31 19:11 笔记记忆 阅读(1438) 评论(0) 推荐(0)
摘要: 本文链接:https://blog.csdn.net/sjkldjflakj/article/details/52016235决策树 先说下决策树吧,具体的算法什么的就不讲了,很基本的东西,网上有很多。主要总结下三种特征选择的优缺点。 ID3 基于信息增益做特征选择,所以很容易受到某一特征特征值数量 阅读全文
posted @ 2019-10-31 19:10 笔记记忆 阅读(422) 评论(0) 推荐(0)
摘要: (1)k-mean聚类 k-mean聚类比较容易理解就是一个计算距离,找中心点,计算距离,找中心点反复迭代的过程, 给定样本集D={x1,x2,...,xm},k均值算法针对聚类所得簇划分C={C1,C2,...,Ck}最小化平方误差 μi表示簇Ci的均值向量,在一定程度上刻画了簇内样本围绕均值向量 阅读全文
posted @ 2019-10-31 19:08 笔记记忆 阅读(1357) 评论(0) 推荐(0)
摘要: 特征选择方法初识: 1、为什么要做特征选择在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、特征选取的原则获取尽可能小的特征子 阅读全文
posted @ 2019-10-31 19:07 笔记记忆 阅读(708) 评论(0) 推荐(0)
摘要: 聚类度量包括性能度量和距离计算, 性能度量 对数据集D={x1,x2,...,xm},假定通过聚类给出的策划为C={C1,C2,...,Ck},参考模型给出的簇划分为C‘={C'1,C'2,...C'k},相应的λ和λ‘分别表示C和C’对应的簇标记向量,将样本两两配对考虑, 由于每一个样本中仅能出现 阅读全文
posted @ 2019-10-31 19:05 笔记记忆 阅读(443) 评论(0) 推荐(0)
摘要: 数据降维的目的:数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。 数据降维的好处:降维可以方便数据可视化+数据分析+数据压缩+数据提取等。 降维方法 __ 属性选择:过滤法;包装法;嵌入法; |_ 映射方法 _线性映射方法:PCA、LDA、 阅读全文
posted @ 2019-10-31 19:04 笔记记忆 阅读(743) 评论(0) 推荐(0)
摘要: 一、引言 本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu 在上一篇有监督学习回归模型中,我们利用训练集直接对条件概率p(y|x;θ)建模,例如logistic回归就利用hθ(x) = g(θTx)对p(y|x;θ)建模(其中g(z)是sigmoid 阅读全文
posted @ 2019-10-31 19:03 笔记记忆 阅读(968) 评论(0) 推荐(0)
摘要: 转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html k-mean算法与EM K-mean 阅读全文
posted @ 2019-10-31 19:01 笔记记忆 阅读(419) 评论(0) 推荐(0)
摘要: 转自http://blog.csdn.net/zouxy09/article/details/8537620/ 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的 阅读全文
posted @ 2019-10-31 18:59 笔记记忆 阅读(699) 评论(0) 推荐(0)
摘要: 转自http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020216.html 几个特别有用 的链接: 更加深入理解 阅读全文
posted @ 2019-10-31 18:58 笔记记忆 阅读(3361) 评论(0) 推荐(0)
摘要: 学习的过程中,关于特征选择和降维都是防止数据过拟合的有效手段,但是两者又有本质上的区别。 降维 降维本质上是从一个维度空间映射到另一个维度空间,特征的多少别没有减少,当然在映射的过程中特征值也会相应的变化。 举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从1000 阅读全文
posted @ 2019-10-31 18:54 笔记记忆 阅读(3053) 评论(0) 推荐(0)
摘要: 转自http://blog.csdn.net/dongtingzhizi/article/details/15962797 当我第一遍看完台大的机器学习的视频的时候,我以为我理解了逻辑回归,可后来越看越迷糊,直到看到了这篇文章,豁然开朗 基本原理 Logistic Regression和Linear 阅读全文
posted @ 2019-10-31 18:53 笔记记忆 阅读(2002) 评论(0) 推荐(0)
摘要: 转自 http://blog.csdn.net/hguisu/article/details/7996185 1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时 阅读全文
posted @ 2019-10-31 18:52 笔记记忆 阅读(2352) 评论(0) 推荐(1)
摘要: 转自 http://blog.csdn.net/Androidlushangderen/article/details/43311943 参考资料:http://blog.csdn.net/hguisu/article/details/7996185更多数据挖掘算法:https://github.c 阅读全文
posted @ 2019-10-31 18:50 笔记记忆 阅读(872) 评论(0) 推荐(0)
摘要: 对于一般的回归问题,给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,我们希望学习到一个f(x)使得,其与y尽可能的接近,w,b是待确定的参数。在这个模型中,只有当发f(x)与y完全相同时,损失才为零,而支持向量回归假设我们能容忍的f(x)与之间最多有ε的偏差,当 阅读全文
posted @ 2019-10-31 18:44 笔记记忆 阅读(1039) 评论(0) 推荐(0)
摘要: 常见的机器学习模型:感知机,线性回归,逻辑回归,支持向量机,决策树,随机森林,GBDT,XGBoost,贝叶斯,KNN,K-means等; 常见的机器学习理论:过拟合问题,交叉验证问题,模型选择问题,模型融合问题等; K近邻:算法采用测量不同特征值之间的距离的方法进行分类。 优点: 1.简单好用,容 阅读全文
posted @ 2019-10-31 18:43 笔记记忆 阅读(1621) 评论(0) 推荐(0)
摘要: 过拟合产生的原因: ①假设过于复杂②噪音数据③数据规模太小 解决过拟合的方案:数据清洗(将错误的lable纠正或者删除错误的数据),伪造更多的数据,正则化,验正 正则化--范数:转自http://blog.csdn.net/zouxy09/article/details/24971995 监督机器学 阅读全文
posted @ 2019-10-31 18:41 笔记记忆 阅读(455) 评论(0) 推荐(0)
摘要: 他通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。 adaboost提高那些被前一轮弱分类器错误分类样本的权重,而降低那些被正确分类样本的权重,这样使得,那些没有得到正确分类的数据,由于其权重的加大而受到后一轮的弱分类器的更大的关注。在组合阶段,加大分类误差率小的 阅读全文
posted @ 2019-10-31 18:39 笔记记忆 阅读(183) 评论(0) 推荐(0)
摘要: 国内外网站如果你想搜索比较新颖的机器学习资料或是文章,可以到以下网站中搜索,里面不仅包括了机器学习的内容,还有许多其它相关领域内容,如数据科学和云计算等。InfoWord:http://www.infoworld.com/reviews/Kdnuggets:http://www.kdnuggets. 阅读全文
posted @ 2019-10-31 18:37 笔记记忆 阅读(217) 评论(0) 推荐(0)
摘要: 转自 http://blog.csdn.net/linkin1005/article/details/39054023 同朴素贝叶斯一样,高斯判别分析(Gaussian discriminant analysismodel, GDA)也是一种生成学习算法,在该模型中,我们假设y给定的情况下,x服从混 阅读全文
posted @ 2019-10-31 18:35 笔记记忆 阅读(1145) 评论(0) 推荐(0)
摘要: 马尔科夫过程 马尔科夫过程可以看做是一个自动机,以一定的概率在各个状态之间跳转。 考虑一个系统,在每个时刻都可能处于N个状态中的一个,N个状态集合是 {S1,S2,S3,...SN}。我们现在用q1,q2,q3,…qn来表示系统在t=1,2,3,…n时刻下的状态。在t=1时,系统所在的状态q取决于一 阅读全文
posted @ 2019-10-31 18:34 笔记记忆 阅读(884) 评论(0) 推荐(0)
摘要: <转>机器学习系列(9)_机器学习算法一览(附Python和R代码) 转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更聪明,更人性化的技术,机器学习 阅读全文
posted @ 2019-10-31 18:32 笔记记忆 阅读(1989) 评论(0) 推荐(0)
摘要: 出处: http://blog.csdn.net/longxinchen_ml/article/details/50493845, http://blog.csdn.net/han_xiaoyang/article/details/50503115 1. 剧情一:挑螃蟹的秘密 李雷与韩梅梅的关系发展 阅读全文
posted @ 2019-10-31 18:30 笔记记忆 阅读(360) 评论(0) 推荐(0)
摘要: 转自http://blog.csdn.net/han_xiaoyang/article/details/50481967 1. 引言 再过一个月就是春节,相信有很多码农就要准备欢天喜地地回家过(xiang)年(qin)了。我们今天也打算讲一个相亲的故事。 讲机器学习为什么要讲相亲?被讨论群里的小伙伴 阅读全文
posted @ 2019-10-31 18:29 笔记记忆 阅读(177) 评论(0) 推荐(0)
摘要: 转自 http://blog.csdn.net/u014568921/article/details/49383379 另外一个很容易理解的文章 :http://www.jianshu.com/p/005a4e6ac775 更多参考如下 机器学习(四)— 从gbdt到xgboost 机器学习常见算法 阅读全文
posted @ 2019-10-31 18:24 笔记记忆 阅读(844) 评论(0) 推荐(0)
摘要: 最近在学习论文的时候发现了在science上发表的关于新型的基于密度的聚类算法 Kmean算法有很多不足的地方,比如k值的确定,初始结点选择,而且还不能检测费球面类别的数据分布,对于第二个问题,提出了Kmean++,而其他不足还没有解决,dbscan虽然可以对任意形状分布的进行聚类,但是必须指定一个 阅读全文
posted @ 2019-10-31 18:22 笔记记忆 阅读(443) 评论(0) 推荐(0)
摘要: 前言: PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意 阅读全文
posted @ 2019-10-31 18:16 笔记记忆 阅读(314) 评论(0) 推荐(0)
摘要: xgboost原理 参考: http://blog.csdn.net/a819825294/article/details/51206410 http://blog.csdn.net/sb19931201/article/details/52557382 http://www.cnblogs.com 阅读全文
posted @ 2019-10-31 18:16 笔记记忆 阅读(115) 评论(0) 推荐(0)
摘要: 转自http://blog.csdn.net/mytestmy/article/details/19088827 声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应, 阅读全文
posted @ 2019-10-31 18:13 笔记记忆 阅读(323) 评论(0) 推荐(0)
摘要: By Kubi Code 朴素贝叶斯 参考[1] 事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生AP(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B)所以有:P(A|B)=P(B|A)∗P(A)P(B) 对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概 阅读全文
posted @ 2019-10-31 18:12 笔记记忆 阅读(1088) 评论(0) 推荐(0)
摘要: By Kubi Code 文章目录 1. 有监督学习和无监督学习的区别 2. 正则化 3. 过拟合 3.1. 产生的原因 3.2. 解决方法 4. 泛化能力 5. 生成模型和判别模型 6. 线性分类器与非线性分类器的区别以及优劣 6.1. 特征比数据量还大时,选择什么样的分类器? 6.2. 对于维度 阅读全文
posted @ 2019-10-31 18:10 笔记记忆 阅读(426) 评论(0) 推荐(0)
摘要: 1 人工神经网络 1.1 神经元 神经网络由大量的神经元相互连接而成。每个神经元接受线性组合的输入后,最开始只是简单的线性加权,后来给每个神经元加上了非线性的激活函数,从而进行非线性变换后输出。每两个神经元之间的连接代表加权值,称之为权重(weight)。不同的权重和激活函数,则会导致神经网络不同的 阅读全文
posted @ 2019-10-31 18:09 笔记记忆 阅读(287) 评论(0) 推荐(0)
摘要: 转自 http://blog.csdn.net/xingzhedai/article/details/53144126 更多参考:http://blog.csdn.net/mafeiyu80/article/details/51446558 http://blog.csdn.net/caimouse 阅读全文
posted @ 2019-10-31 18:07 笔记记忆 阅读(351) 评论(0) 推荐(0)
摘要: 转自http://www.cnblogs.com/chaosimple/p/3182157.html 一、统计学的基本概念 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它 阅读全文
posted @ 2019-10-31 18:06 笔记记忆 阅读(885) 评论(0) 推荐(0)
摘要: 转自 http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92 简介 在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以上的值。 Softma 阅读全文
posted @ 2019-10-31 18:04 笔记记忆 阅读(861) 评论(0) 推荐(0)
摘要: 目录链接 (1) 牛顿法 (2) 拟牛顿条件 (3) DFP 算法 (4) BFGS 算法 (5) L-BFGS 算法 阅读全文
posted @ 2019-10-31 17:58 笔记记忆 阅读(226) 评论(0) 推荐(0)
摘要: 转自 :http://blog.csdn.net/aliceyangxi1987/article/details/73598857 学习曲线是什么? 学习曲线就是通过画出不同训练集大小时训练集和交叉验证的准确率,可以看到模型在新数据上的表现,进而来判断模型是否方差偏高或偏差过高,以及增大训练集是否可 阅读全文
posted @ 2019-10-31 17:57 笔记记忆 阅读(3341) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3191856.html 一、python特定的执行环境 在当前脚本继续进行 创建和管理子进程 执行外部命令或程序 执行需要输入的命令 通过网络来调用命令 执行命令来创建需要处理的输出 动态生成Python语句 导入Pytho 阅读全文
posted @ 2019-10-31 17:47 笔记记忆 阅读(929) 评论(0) 推荐(0)
摘要: 一、Python经典类与新类 经典类:如果没有直接或间接的子类化一个对象,也就是说如果没有指定一个父类,或者是如果子类化的基本类没有父类,那么就定义了经典类: 新式类:与经典类相反。object是“所有类之母”,也就是基类,如果你的类没有继承任何父类,object将作为默认的父类: 二、Python 阅读全文
posted @ 2019-10-31 17:46 笔记记忆 阅读(276) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3510786.html 本文旨在Python复习和总结: 1、如何创建类和实例? # 创建类 class ClassName(object): """docstring for ClassName""" def __init 阅读全文
posted @ 2019-10-31 17:44 笔记记忆 阅读(406) 评论(0) 推荐(0)
摘要: 一、Python的排序 1、reversed() 这个很好理解,reversed英文意思就是:adj. 颠倒的;相反的;(判决等)撤销的 2、让人糊涂的sort()与sorted() 在Python 中sorted是内建函数(BIF),而sort()是列表类型的内建函数list.sort()。 so 阅读全文
posted @ 2019-10-31 17:42 笔记记忆 阅读(29581) 评论(0) 推荐(0)
摘要: 自 http://www.cnblogs.com/BeginMan/p/3197123.html 一、and: 在Python 中,and 和 or 执行布尔逻辑演算,如你所期待的一样,但是它们并不返回布尔值;而是,返回它们实际进行比较的值之一。 在布尔上下文中从左到右演算表达式的值,如果布尔上下文 阅读全文
posted @ 2019-10-31 17:41 笔记记忆 阅读(741) 评论(0) 推荐(0)
摘要: explained_variance_score() mean_absolute_error() mean_squared_error() r2_score() 以上四个函数的相同点: 这些函数都有一个参数“multioutput”,用来指定在多目标回归问题中,若干单个目标变量的损失或得分以什么样的 阅读全文
posted @ 2019-10-31 17:39 笔记记忆 阅读(1347) 评论(0) 推荐(0)
摘要: 学习器模型中一般有两个参数:一类参数可以从数据中学习估计得到,还有一类参数无法从数据中估计,只能靠人的经验进行指定,后一类参数就叫超参数 比如,支持向量机里的C,Kernel,gama,朴素贝叶斯里的alpha等,在学习其模型的设计中,我们要搜索超参数空间为学习器模型找到最合理的超参数,可以通过以下 阅读全文
posted @ 2019-10-31 17:37 笔记记忆 阅读(1035) 评论(0) 推荐(0)
摘要: sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,LeavePOut,ShuffleSplit,GroupShuffleSplit,Stratified 阅读全文
posted @ 2019-10-31 17:36 笔记记忆 阅读(3955) 评论(0) 推荐(0)
摘要: 一、standardization 之所以标准化的原因是,如果数据集中的某个特征的取值不服从标准的正太分布,则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准化操作 ②Preprocessing还提供了一个类StandarScaler,该类实现了变换器的AP 阅读全文
posted @ 2019-10-31 17:35 笔记记忆 阅读(1155) 评论(0) 推荐(0)
摘要: 特征抽取sklearn.feature_extraction 模块提供了从原始数据如文本,图像等众抽取能够被机器学习算法直接处理的特征向量。 1.特征抽取方法之 Loading Features from Dicts 2.特征抽取方法之 Features hashing 3.特征抽取方法之 Text 阅读全文
posted @ 2019-10-31 17:34 笔记记忆 阅读(414) 评论(0) 推荐(0)
摘要: 一、模型验证方法如下: ①通过交叉验证得分:model_sleection.cross_val_score(estimator,X) 结果图 ②对每个输入数据点产生交叉验证估计:model_selection.cross_val_predict(estimator,X) ③、计算并绘制模型的学习率曲 阅读全文
posted @ 2019-10-31 17:33 笔记记忆 阅读(6317) 评论(0) 推荐(0)
摘要: sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_<name> 计算机生成的数据集(Generat 阅读全文
posted @ 2019-10-31 17:31 笔记记忆 阅读(1085) 评论(0) 推荐(0)
摘要: sklearn监督学习的各个模块 neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模型 ensemble集成方法,tree决策树,native_bayes朴素贝叶斯,cross_dec 阅读全文
posted @ 2019-10-31 17:30 笔记记忆 阅读(269) 评论(0) 推荐(0)
摘要: 一、pipeline的用法 pipeline可以用于把多个estimators级联成一个estimator,这么 做的原因是考虑了数据处理过程中一系列前后相继的固定流程,比如feature selection->normalization->classification pipeline提供了两种服 阅读全文
posted @ 2019-10-31 17:29 笔记记忆 阅读(962) 评论(0) 推荐(0)
摘要: 学习了机器学习这么久,第一次真正用机器学习中的方法解决一个实际问题,一步步探索,虽然最后结果不是很准确,仅仅达到了0.78647,但是真是收获很多,为了防止以后我的记忆虫上脑,我决定还是记录下来好了。 1,看到样本是,查看样本的分布和统计情况 通常遇到缺值的情况,我们会有几种常见的处理方式 如果缺值 阅读全文
posted @ 2019-10-31 17:27 笔记记忆 阅读(320) 评论(0) 推荐(0)
摘要: python3使用matplotlib画图,因python3默认使用中unicode编码,所以在写代码时不再需要写 plt.xlabel(u’人数’),而是直接写plt.xlabel(‘人数’)。 注意: 在有中文的地方加上中文相关的字体,不然会因为没有字体显示成放框,因为默认的使用的字体里没有中文 阅读全文
posted @ 2019-10-31 17:26 笔记记忆 阅读(298) 评论(0) 推荐(0)
摘要: 1.Pandas 基本介绍 Numpy 和 Pandas 有什么不同? 如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的,没有数值标签,而 Pandas 就是字典形式。Pandas是基于Numpy构建的,让Numpy为中心的应用变得更加简单。 pandas基本功能和 阅读全文
posted @ 2019-10-31 17:25 笔记记忆 阅读(326) 评论(0) 推荐(0)
摘要: 转自https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/2-1-np-attributes/ numpy 的属性: 使用numpy首先要导入模块 import numpy as np #为了方便使用numpy 采用np简写 列 阅读全文
posted @ 2019-10-31 17:23 笔记记忆 阅读(563) 评论(0) 推荐(0)
摘要: 首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征,选择合适的方法。 2.sklearn使用的小例子 3.sklearn数据集 在上边例子中,直接使用了s 阅读全文
posted @ 2019-10-31 17:21 笔记记忆 阅读(1183) 评论(0) 推荐(0)
摘要: 在学习python的时候常常需要numpy这个库,每次都是用一个查一个,这个,终于见到一个完整的总结了http://blog.csdn.net/blog_empire/article/details/39298557 一、数组方法 创建数组:arange()创建一维数组;array()创建一维或多维 阅读全文
posted @ 2019-10-31 17:19 笔记记忆 阅读(1970) 评论(0) 推荐(0)
摘要: 安装SK-Learn需要依赖的Python安装包有: Python (>= 2.6), NumPy (>= 1.3), SciPy (>= 0.7), 下载python的各种包的地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/ 在下载各种包的时候要注意版本的 阅读全文
posted @ 2019-10-31 17:18 笔记记忆 阅读(310) 评论(0) 推荐(0)
摘要: 浅述python中argsort()函数的用法 (1).先定义一个array数据 (2).现在我们可以看看argsort()函数的具体功能是什么: 输出定义为y=array([3,0,2,1,4,5])。 我们发现argsort()函数是将x中的元素从小到大排列,提取其对应的index(索引),然后 阅读全文
posted @ 2019-10-31 17:17 笔记记忆 阅读(424) 评论(0) 推荐(0)
摘要: 决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。 1:简单概念描述 决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对I 阅读全文
posted @ 2019-10-31 17:15 笔记记忆 阅读(379) 评论(0) 推荐(0)
摘要: KNN算法很简单,大致的工作原理是:给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。 对于上边的问题,①计算测试样本与训练样本的距离,②选择与其最 阅读全文
posted @ 2019-10-31 17:14 笔记记忆 阅读(329) 评论(0) 推荐(0)
摘要: 以前学python的时候一直在网上找资料,看别人博客上的内容,学的东西感觉好乱,直到看了一本书:python编程从入门到精通,虽然基础知识是我一天看完的,但是还是感觉豁然开朗,如果对于初学者,可以看看这本书,边看,边做上边的练习题,感觉真的很棒!!由于记忆力不好,还是想把看到的知识总结一下,以备以后 阅读全文
posted @ 2019-10-31 17:12 笔记记忆 阅读(348) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3178103.html 一、lambda函数 1、lambda函数基础: lambda函数也叫匿名函数,即,函数没有具体的名称,而用def创建的方法是有名称的。如下: """命名的foo函数""" def foo():ret 阅读全文
posted @ 2019-10-31 17:09 笔记记忆 阅读(187) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3173328.html 一、装饰器(decorators) 装饰器的语法以@开头,接着是装饰器函数的名字、可选参数。 紧跟装饰器声明的是被装饰的函数和被装饰的函数的可选参数,如下: 其实总体说起来,装饰器其实也就是一个函数, 阅读全文
posted @ 2019-10-31 17:07 笔记记忆 阅读(182) 评论(0) 推荐(0)
摘要: http://www.cnblogs.com/BeginMan/p/3171977.html 一、什么是函数、方法、过程 推荐阅读:http://www.cnblogs.com/snandy/archive/2011/08/29/2153871.html 一般程序设计语言包含两种基本的抽象:过程抽象 阅读全文
posted @ 2019-10-31 17:06 笔记记忆 阅读(346) 评论(0) 推荐(0)
摘要: 自 http://www.cnblogs.com/BeginMan/p/3171445.html 一、什么是错误,什么是异常,它们两者区别 这里解释如下:个人觉得很通俗易懂 错误是指在执行代码过程中发生的事件,它中断或干扰代码的正常流程并创建异常对象。当错误中断流程时,该程序将尝试寻找异常处理程序( 阅读全文
posted @ 2019-10-31 17:05 笔记记忆 阅读(531) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3169020.html 一、文件系统 从系统角度来看,文件系统是对文件存储器空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。具体地说,它负责为用户建立文件,存入、读出、修改、转储文件,控制文件的存取,当用 阅读全文
posted @ 2019-10-31 17:04 笔记记忆 阅读(212) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3166644.html 一、文件对象 我理解的文件对象就是一个接口,通过这个接口对文件进行相关操作。 《Python 核心编程》上说的很晦涩,这里没有深刻理解到,希望有人能解释给我听。 二、相关函数 [1]、内建函数:ope 阅读全文
posted @ 2019-10-31 17:03 笔记记忆 阅读(234) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3166363.html 一、字符编码中ASCII、Unicode和UTF-8的区别 点击阅读:http://www.cnblogs.com/kingstarspe/p/ASCII.html 再推荐一篇相关博文:http:// 阅读全文
posted @ 2019-10-31 17:02 笔记记忆 阅读(272) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3164937.html 一、列表解析 列表解析来自函数式编程语言(haskell),语法如下: 第一种语法:首先迭代iterable里所有内容,每一次迭代,都把iterable里相应内容放到iter_var中,再在表达式中应 阅读全文
posted @ 2019-10-31 17:01 笔记记忆 阅读(177) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3164600.html 一、Python语句 if语句、else语句、elif语句、条件表达式、while语句、for语句、break语句、continue语句、pass语句、Iterators(迭代器)、列表解析 二、常用 阅读全文
posted @ 2019-10-31 17:00 笔记记忆 阅读(287) 评论(0) 推荐(0)
摘要: 自 http://www.cnblogs.com/BeginMan/p/3160565.html 一、目录 1、集合概述 2、关于集合的操作符、关系符号 3、集合的一系列操作(添加、更新、访问、删除) 4、关于集合的内建函数、内建方法 5、小结 二、集合概述 集合(set):把不同的元素组成一起形成 阅读全文
posted @ 2019-10-31 16:59 笔记记忆 阅读(205) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3156235.html 一、元组特性 1、类似列表,但不可变类型,正因如此,它可以做一个字典的key2、当处理一组对象时,这个组默认是元组类型(老写错"元祖")3、所有的多对象,逗号分隔的,没有明确用符号定义的这些都默认为元 阅读全文
posted @ 2019-10-31 16:54 笔记记忆 阅读(178) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/p/3153842.html 一、序列类型操作符 1、切片[]和[:] 2、成员关系操作符(in ,not in ) 1: s1 = [1,2,3,4,5,6,7] 2: s2 = [2,3,6] 3: s3 = [] 4: fo 阅读全文
posted @ 2019-10-31 16:53 笔记记忆 阅读(154) 评论(0) 推荐(0)
摘要: http://www.cnblogs.com/BeginMan/archive/2013/06/08/3125502.html 二、序列类型 包含字符串、列表、元祖。模式都一样,举一反三即可。如: 1、成员关系操作符(in / not in ) 2、关于切片 1 2 3 4 5 6 s=[1,2,3 阅读全文
posted @ 2019-10-31 16:52 笔记记忆 阅读(176) 评论(0) 推荐(0)
摘要: 转自 http://www.cnblogs.com/BeginMan/archive/2013/06/08/3125876.html 一、标准类型函数 cmp():比较大小 str():转换为字符串 type():类型 cmp(...) cmp(x, y) -> integer Return neg 阅读全文
posted @ 2019-10-31 16:52 笔记记忆 阅读(162) 评论(0) 推荐(0)
摘要: http://www.cnblogs.com/BeginMan/p/3160044.html 一、学习目录 1、pyhton对象 2、python类型 3、类型操作符与内建函数 4、类型工厂函数 5、不支持类型 二、思考 1、Python解释执行原理? 2、Python对象机制? 3、Python哪 阅读全文
posted @ 2019-10-31 16:51 笔记记忆 阅读(91) 评论(0) 推荐(0)
摘要: 转自http://www.cnblogs.com/BeginMan/archive/2013/06/03/3114974.html 1、print语句调用str()函数显示,交互式解释器调用repr()函数来显示对象 str()主要显示给人看,repr()显示个机器和畜生看。print语句会默认给每 阅读全文
posted @ 2019-10-31 16:49 笔记记忆 阅读(198) 评论(0) 推荐(0)
摘要: 转自http://www.cnblogs.com/BeginMan/archive/2013/04/12/3016323.html 一、数字 在看《Python 核心编程》的时候,我就有点疑问,为什么没有把Python数字放在基础范围之内呢,可能作者先要通过Python对象,然后在深入到数字,这样会 阅读全文
posted @ 2019-10-31 16:47 笔记记忆 阅读(163) 评论(0) 推荐(0)
摘要: 学习的python本来想自己总结,但是发现了一篇不错的大牛的博客,拿来主义,,又被我实践了 关于前两篇如果总结的不详细,因此把他人的转载过来 http://www.cnblogs.com/BeginMan/archive/2013/04/12/3016323.html 一、欲练此功,必先自宫 从现在 阅读全文
posted @ 2019-10-31 16:46 笔记记忆 阅读(126) 评论(0) 推荐(0)
摘要: http://www.cnblogs.com/BeginMan/p/3156960.html 一、映射类型 我理解中的映射类型是:键值对的关系,键(key)映射值(value),且它们是一对多的关系。字典是Python唯一的映射类型。 扩展1:哈希表一种数据结构,值是根据相关的键进行数据存储的,形成 阅读全文
posted @ 2019-10-31 16:42 笔记记忆 阅读(1210) 评论(0) 推荐(0)
摘要: 一。基础 1.输出与输入: 输出:print(变量/字符串) 输入:input() 返回的是字符串 2.python风格 (1)注释 # (2)一般情况是一行结束该句结束,但是如果想要续行,在行的结尾加上 \ (3)无需换行符也可以换行的符号:''' (4)一行可以有多条语句, 3.标识符 基本和j 阅读全文
posted @ 2019-10-31 16:37 笔记记忆 阅读(504) 评论(0) 推荐(2)