随笔档案「2019年3月」 - 詹岩鹏

摘要：sys:1: DtypeWarning: Columns (2,4,5) have mixed types. Specify dtype option on import or set low_memory=False 阅读全文

posted @ 2019-03-19 15:54 詹岩鹏阅读(232) 评论(0) 推荐(0)

DataConversionWarning: A column-vector y was passed when a 1d array was expected. 问题解决和数据平衡问题

摘要：在用SMOTE算法模块进行过采样（oversampling）时，pandas导入训练集合特征和label。 from imblearn.over_sampling import SMOTE # 导入SMOTE算法模块 # 处理不平衡数据 sm = SMOTE(random_state=122) # 处理过采样的方法 X, y = sm.fit_sample(X, y) /Users... 阅读全文

posted @ 2019-03-19 13:51 詹岩鹏阅读(3241) 评论(0) 推荐(0)

Y出现ravel的问题解决

摘要：出现： /Users/wangchuang/anaconda3/lib/python3.6/site-packages/sklearn/utils/validation.py:547: DataConversionWarning: A column-vector y was passed when 阅读全文

posted @ 2019-03-18 16:58 詹岩鹏阅读(3074) 评论(0) 推荐(0)

k-mean(随机数质心生成）

摘要：random.uniform()函数 def uniform(low=0.0, high=1.0, size=None) 产生的数据为均匀分布，数据值区间为[low,high)，size为其产生数据的尺寸。 low：float，可选，默认值0； high：float，可选，默认1；官网上写的是必填，实测可以省略； size：int，或者int元祖，可选。如果为（m, n, k）的形式，返回m*m... 阅读全文

posted @ 2019-03-08 14:15 詹岩鹏阅读(287) 评论(0) 推荐(0)

k-mean(欧氏距离计算）

摘要：import numpy as np 方法一 def Distance(vec1,vec2): dist = np.sqrt(np.sum(np.square(vec1 - vec2))) return dist 方法二 def distEclud(vecl1,vecl2): dist = np.sqrt(np.sum(np.power(vecl1 - vecl2,2))... 阅读全文

posted @ 2019-03-08 10:41 詹岩鹏阅读(446) 评论(0) 推荐(0)

随机森林--调参

摘要：模型调参第一步是要找准目标：我们要做什么？一般来说，这个目标是提升某个模型评估指标，比如对于随机森林来说，我们想要提升的是模型在未知数据上的准确率（由score或 oob_score_来衡量）。找准了这个目标，我们就需要思考：模型在未知数据上的准确率受什么因素影响？在机器学习中，我们用来衡量模型在未知数据上的准确率的指标，叫做泛化误差（Genelization error）泛化误差 ... 阅读全文

posted @ 2019-03-06 15:29 詹岩鹏阅读(518) 评论(0) 推荐(0)

case when函数和 cast函数

摘要：一、case when 需求：按薪资排序高中低需求：将emp表的奖金这列如果说没有显示0而不是null 二、cast 阅读全文

posted @ 2019-03-04 11:18 詹岩鹏阅读(411) 评论(0) 推荐(0)

03 2019 档案

公告