2019年4月12日

装饰器-wrapper

摘要：我跟别人说我精通python，别人问我wrapper是啥，我说不知道，尼玛，原来wrapper就是装饰器，熟的不得了啊，英语真是我的克星啊。闭包 closure 在认识装饰器之前先认识下闭包闭包，顾名思义就是把什么东西封闭在保内，什么东西呢？变量和函数。在一个函数里装了另一个函数，里面那个函数阅读全文

posted @ 2019-04-12 09:49 努力的孔子阅读(3369) 评论(0) 推荐(0)

2019年4月11日

类别不均衡

摘要：类别不均衡问题就是不同类别的样本数差别很大，很容易理解，不再赘述。这种情况会导致模型的误判，比如2分类，正例998，反例2，那么即使我们所有的样本都识别为正例，正确率高达99.8%，然而并没有什么卵用。对于类别不均衡问题，大体上主要有两种，即以数据为中心驱动和以算法为中心的解决方案。数据策略阅读全文

posted @ 2019-04-11 17:03 努力的孔子阅读(555) 评论(0) 推荐(0)

参数优化-学习曲线

摘要：验证曲线是调节学习器的参数的，学习曲线是用来调节训练样本大小的。从理论上来讲，如果数据“同质”，当数据量到达一定程度时，学习器可以学到所有的“特征”，继续增加样本没有作用。那么到底多少样本是合适的呢？做个实验逐渐增大训练样本量，同时判断训练集和测试集的准确率，看看会发生什么 1. 首先从训练阅读全文

posted @ 2019-04-11 11:57 努力的孔子阅读(783) 评论(0) 推荐(0)

参数优化-验证曲线

摘要：通过验证一个学习器在训练集和测试集上的表现，来确定模型是否合适，参数是否合适。如果训练集和测试集得分都很低，说明学习器不合适。如果训练集得分高，测试集得分低，模型过拟合，训练集得分低，测试集得分高，不太可能。示例代码输出参数gamma的调节很小时，训练集和测试集得分都低，欠拟合增大时，阅读全文

posted @ 2019-04-11 11:32 努力的孔子阅读(625) 评论(0) 推荐(0)

参数优化-API

摘要：网格搜索对给定参数进行组合，用某标准进行评价，只适合小数据集参数 estimator：一个学习器对象，它必须有.fit方法用于学习，.predict方法用于预测，.score方法用于评分 param_grid：字典或者字典的列表，每个字典是学习器的一个参数，key是参数名，value是备选参数序阅读全文

posted @ 2019-04-11 10:54 努力的孔子阅读(563) 评论(0) 推荐(0)

参数优化-偏差与方差

摘要：我们知道训练模型时经常会有一些误差，我们要想弥补这些误差，首先要搞清楚这些误差是怎么产生的。误差的分解假设我们要预测的模型为 y=f(x)，但是通常数据都会有一些噪音，我们的数据集为y=f(x)+noise，通常我们会假设数据服从正态分布，也就是噪音会均分分布在曲线两侧，所以噪音和为0。假设有阅读全文

posted @ 2019-04-11 10:51 努力的孔子阅读(892) 评论(0) 推荐(0)

2019年4月7日

决策树-回归

摘要：决策树常用于分类问题，但是也能解决回归问题。在回归问题中，决策树只能使用cart决策树，而cart决策树，既可以分类，也可以回归。所以我们说的回归树就是指cart树。为什么只能是cart树 1. 回想下id3，分裂后需要计算每个类别占总样本的比例，回归哪来的类别，c4.5也一样 2. 回归问题阅读全文

posted @ 2019-04-07 18:45 努力的孔子阅读(2595) 评论(0) 推荐(0)

网络代理

摘要：代理，就是找个人代替你正向代理客户端的代理，找个IP替你访问web服务器在浏览器中设置代理：设置==>高级设置==>代理服务器设置不同浏览器设置方法不同，大致思路一致反向代理服务端的代理，找个服务器替你响应请求，有几个作用 1. 把请求分散到不同服务器上，减缓压力 2. 隐藏真实 IP，阅读全文

posted @ 2019-04-07 15:53 努力的孔子阅读(968) 评论(0) 推荐(0)

反爬与反反爬

摘要：很多网站都有反爬机制，自从有了爬虫，反爬与反反爬的斗争就没停过，而且都在不断升级。下面介绍一些常见的反爬与反反爬机制。基于headers的反爬基于用户请求的headers反爬是最常见的反爬机制。在请求头headers中，包含很多键值对，服务器会根据这些键值对进行反爬。 1. User-Age 阅读全文

posted @ 2019-04-07 14:28 努力的孔子阅读(2053) 评论(0) 推荐(0)

2019年4月6日

朴素贝叶斯

摘要：朴素贝叶斯是一个概率模型，在数学上能用概率解释的模型一般被认为是好模型。朴素贝叶斯常用于文本分类。先介绍几个基础概念。 1. 概率设x为符合某种特征的样本，H为某个假设，比如假设x属于类别c，那分类就是求这个假设发生的概率，即P(H|x)的大小。 P(H|X)是后验概率，或者说在条件X下，H的阅读全文

posted @ 2019-04-06 08:39 努力的孔子阅读(605) 评论(0) 推荐(0)

2019年4月12日

2019年4月11日

2019年4月7日

2019年4月6日

导航