03 2019 档案

摘要:sys:1: DtypeWarning: Columns (2,4,5) have mixed types. Specify dtype option on import or set low_memory=False 阅读全文
posted @ 2019-03-19 15:54 詹岩鹏 阅读(232) 评论(0) 推荐(0)
摘要:在用SMOTE算法模块进行过采样(oversampling)时,pandas导入训练集合特征和label。 from imblearn.over_sampling import SMOTE # 导入SMOTE算法模块 # 处理不平衡数据 sm = SMOTE(random_state=122) # 处理过采样的方法 X, y = sm.fit_sample(X, y) /Users... 阅读全文
posted @ 2019-03-19 13:51 詹岩鹏 阅读(3241) 评论(0) 推荐(0)
摘要:出现: /Users/wangchuang/anaconda3/lib/python3.6/site-packages/sklearn/utils/validation.py:547: DataConversionWarning: A column-vector y was passed when 阅读全文
posted @ 2019-03-18 16:58 詹岩鹏 阅读(3074) 评论(0) 推荐(0)
摘要:random.uniform()函数 def uniform(low=0.0, high=1.0, size=None) 产生的数据为均匀分布,数据值区间为[low,high),size为其产生数据的尺寸。 low:float,可选,默认值0; high:float,可选,默认1;官网上写的是必填,实测可以省略; size:int,或者int元祖,可选。如果为(m, n, k)的形式,返回m*m... 阅读全文
posted @ 2019-03-08 14:15 詹岩鹏 阅读(287) 评论(0) 推荐(0)
摘要:import numpy as np 方法一 def Distance(vec1,vec2): dist = np.sqrt(np.sum(np.square(vec1 - vec2))) return dist 方法二 def distEclud(vecl1,vecl2): dist = np.sqrt(np.sum(np.power(vecl1 - vecl2,2))... 阅读全文
posted @ 2019-03-08 10:41 詹岩鹏 阅读(446) 评论(0) 推荐(0)
摘要:模型调参 第一步是要找准目标:我们要做什么?一般来说,这个目标是提升 某个模型评估指标,比如对于随机森林来说,我们想要提升的是模型在未知数据上的准确率(由score或 oob_score_来衡量)。找准了这个目标,我们就需要思考:模型在未知数据上的准确率受什么因素影响?在机器学 习中,我们用来衡量模型在未知数据上的准确率的指标,叫做泛化误差(Genelization error) 泛化误差 ... 阅读全文
posted @ 2019-03-06 15:29 詹岩鹏 阅读(518) 评论(0) 推荐(0)
摘要:一、case when 需求:按薪资排序高中低 需求:将emp表的奖金这列如果说没有显示0而不是null 二、cast 阅读全文
posted @ 2019-03-04 11:18 詹岩鹏 阅读(411) 评论(0) 推荐(0)