// // // //

2019年4月12日

摘要: 深拷贝浅拷贝是个很容易迷糊的问题,本人帮你彻底搞清楚。 粗识内存 本人没学过c,内存略懂,有堆栈之分, 栈可以理解为程序自动分配的内存,堆可以理解为程序员对内存的引用,不重要,有感觉就行。 浅拷贝 浅拷贝并不是我们认知中的“复制”,浅拷贝只是对象的引用,是对一个对象的浅层拷贝,所以叫浅拷贝 或者说是 阅读全文
posted @ 2019-04-12 11:24 努力的孔子 阅读(228) 评论(0) 推荐(0) 编辑
 
摘要: 我跟别人说我精通python,别人问我wrapper是啥,我说不知道,尼玛,原来wrapper就是装饰器,熟的不得了啊,英语真是我的克星啊。 闭包 closure 在认识装饰器之前先认识下闭包 闭包,顾名思义就是把什么东西封闭在保内,什么东西呢?变量和函数。 在一个函数里装了另一个函数,里面那个函数 阅读全文
posted @ 2019-04-12 09:49 努力的孔子 阅读(3277) 评论(0) 推荐(0) 编辑
 

2019年4月11日

摘要: 类别不均衡问题就是不同类别的样本数差别很大,很容易理解,不再赘述。 这种情况会导致模型的误判,比如2分类,正例998,反例2,那么即使我们所有的样本都识别为正例,正确率高达99.8%,然而并没有什么卵用。 针对该问题本文汇总了几种解决方法 想办法搞到更多数据 换个模型评价方式 在类别均衡时,accu 阅读全文
posted @ 2019-04-11 17:03 努力的孔子 阅读(502) 评论(0) 推荐(0) 编辑
 
摘要: 验证曲线是调节学习器的参数的,学习曲线是用来调节训练样本大小的。 从理论上来讲,如果数据“同质”,当数据量到达一定程度时,学习器可以学到所有的“特征”,继续增加样本没有作用。 那么到底多少样本是合适的呢? 做个实验 逐渐增大训练样本量,同时判断训练集和测试集的准确率,看看会发生什么 1. 首先从训练 阅读全文
posted @ 2019-04-11 11:57 努力的孔子 阅读(692) 评论(0) 推荐(0) 编辑
 
摘要: 通过验证一个学习器在训练集和测试集上的表现,来确定模型是否合适,参数是否合适。 如果训练集和测试集得分都很低,说明学习器不合适。 如果训练集得分高,测试集得分低,模型过拟合,训练集得分低,测试集得分高,不太可能。 示例代码 输出 参数gamma的调节 很小时,训练集和测试集得分都低,欠拟合 增大时, 阅读全文
posted @ 2019-04-11 11:32 努力的孔子 阅读(583) 评论(0) 推荐(0) 编辑
 
摘要: 网格搜索 对给定参数进行组合,用某标准进行评价,只适合小数据集 参数 estimator:一个学习器对象,它必须有.fit方法用于学习,.predict方法用于预测,.score方法用于评分 param_grid:字典或者字典的列表,每个字典是学习器的一个参数,key是参数名,value是备选参数序 阅读全文
posted @ 2019-04-11 10:54 努力的孔子 阅读(492) 评论(0) 推荐(0) 编辑
 
摘要: 我们知道训练模型时经常会有一些误差,我们要想弥补这些误差,首先要搞清楚这些误差是怎么产生的。 误差的分解 假设我们要预测的模型为 y=f(x),但是通常数据都会有一些噪音,我们的数据集为y=f(x)+noise,通常我们会假设数据服从正态分布,也就是噪音会均分分布在曲线两侧,所以噪音和为0。 假设有 阅读全文
posted @ 2019-04-11 10:51 努力的孔子 阅读(806) 评论(0) 推荐(0) 编辑
 

2019年4月7日

摘要: 决策树常用于分类问题,但是也能解决回归问题。 在回归问题中,决策树只能使用cart决策树,而cart决策树,既可以分类,也可以回归。 所以我们说的回归树就是指cart树。 为什么只能是cart树 1. 回想下id3,分裂后需要计算每个类别占总样本的比例,回归哪来的类别,c4.5也一样 2. 回归问题 阅读全文
posted @ 2019-04-07 18:45 努力的孔子 阅读(2524) 评论(0) 推荐(0) 编辑
 
摘要: 代理,就是找个人代替你 正向代理 客户端的代理,找个IP替你访问web服务器 在浏览器中设置代理:设置==>高级设置==>代理服务器设置 不同浏览器设置方法不同,大致思路一致 反向代理 服务端的代理,找个服务器替你响应请求,有几个作用 1. 把请求分散到不同服务器上,减缓压力 2. 隐藏真实 IP, 阅读全文
posted @ 2019-04-07 15:53 努力的孔子 阅读(775) 评论(0) 推荐(0) 编辑
 
摘要: 很多网站都有反爬机制,自从有了爬虫,反爬与反反爬的斗争就没停过,而且都在不断升级。 下面介绍一些常见的反爬与反反爬机制。 基于headers的反爬 基于用户请求的headers反爬是最常见的反爬机制。 在请求头headers中,包含很多键值对,服务器会根据这些键值对进行反爬。 1. User-Age 阅读全文
posted @ 2019-04-07 14:28 努力的孔子 阅读(1908) 评论(0) 推荐(0) 编辑