02 2020 档案
摘要:•数据预处理的几种方法: StandardScaler:确保每个特征的平均值为0,方差为1,使得所有特征在同一量级。但不能保证特征任何特定的最大值和最小值。 RobustScaler:与StandardScaler类似,确保每个特征的统计属性在同一范围,但使用中位数和四分位数。会忽略数据中的异常值。
阅读全文
摘要:•感知机的多个输入信号都有各自固有的权重,这些权重发挥着控制各个信号的重要性的作用。 即权重越大,对应 该权重的 信号的重要性就越高。 •偏置b用来调整神经元被激活的容易程度 •单层感知机的局限性在于只能分割表示线性空间, 多层感知机可以表示非线性空间。
阅读全文
摘要:•mxnet环境搭建帖 在anaconda5.0.1下搭建mxnet (pip版本):http://notes.kohill.cn/mxnet_install CUDA 10.0安装教程:https://blog.csdn.net/shuiyixin/article/details/99935799
阅读全文
摘要:•图像处理三阶段: ①低级:图像预处理,譬如图像降噪、对比度增强、图像尖锐化,以输入和输出都是图像为特点。 ②中级:对图像进行进一步处理,譬如分割,分类等,以输入为图像但输出是从这些图像中提取的特征。 ③高级:理解识别的图像。
阅读全文
摘要:•分类器的不确定度 决策函数(decision_function): 二分类:返回类型为(n_samples, ),为每个样本返回一个浮点数,这个浮点数的正负号代表了预测的分类,值的大小代表了置信度。 多分类:返回类型为(n_samples, n_classes),每一列对应每个类别的“确定度分数”
阅读全文
摘要:•mlp = MLPClassifier(solver = 'lbfgs', random_state = 0) {‘lbfgs’,‘sgd’,‘adam’},默认’adam’。权重优化的求解器:'lbfgs’是准牛顿方法族的优化器;'sgd’指的是随机梯度下降。'adam’是指由Kingma,Di
阅读全文
摘要:•xscale/yscale对数和其它非线性轴 import numpy as np import matplotlib.pyplot as plt #生成一些区间 [0,1]内的数据 y = np.random.normal(loc=0.5, scale=0.4, size=1000) y = y
阅读全文
摘要:•核技巧(kernel trick) 所要解决的问题:向原始数据中添加非线性特征,可以让线性模型变得更强大,但不知道要添加哪些特征,若添加过多的特征。计算开销会很大 原理:直接计算扩展特征表示中数据点之间的距离,而不用实际对扩展进行计算 方法: ①多项式核,在一定阶数内计算原始特征所有可能的多项式;
阅读全文
摘要:•XX, YY = np.meshgrid(xx, yy) meshgrid()函数用两个坐标轴上的点在平面上画网格 https://www.cnblogs.com/shanlizi/p/9127878.html •ax.plot_surface(XX, YY, ZZ, rstride = 8, c
阅读全文
摘要:•hstack(tup) ,参数tup可以是元组,列表,或者numpy数组,返回结果为numpy的数组。 import numpy as np arr1 = np.array([1, 2, 3]) arr2 = np.array([4, 5, 6]) res = np.hstack((arr1, a
阅读全文
摘要:•enumerate()用于同时返回索引和对应的值 list1 = ["这", "是", "一个", "测试"] for index, item in enumerate(list1): print index, item >>> 0 这 1 是 2 一个 3 测试 numpy.ravel()用于拉
阅读全文
摘要:•特征重要性也被存放在tree中,被显示特征的重要性,介于0~1之间,越接近1表示越重要 •plt.barh((range(n_features), model.feature_importances_, align = 'cancer')) plt.barh(y, width,align)用来画横
阅读全文
摘要:•决策树的可视化 ♠ export_graphviz(tree, out_file = None, class_names = ["malignant", "benign"], feature_names = cancer.feature_names, impurity = False, fille
阅读全文
摘要:•朴素贝叶斯分类器: 优点:训练速度快 缺点:泛化性能比logistic回归和linearSVM稍差 GaussianNB:用于任意连续数据 BernoulliNB:输入数据为二分类,用于文本数据分类 MultinomialNB:输入数据为计数数据(每个特征代表某个对象的整数计数),用于文本数据分类
阅读全文
摘要:•logistic回归中有一个参数是penalty,penalty用来控制logistic回归的正则化,默认penalty = 'l2',也可等于l1 当使用penalty = 'l1'时就是使用了L1正则化,使用L1正则化的logistic回归是一个解释性更强的模型,只使用了少数几个特征。 •on
阅读全文
摘要:•lasso回归 ♠lasso回归使用L1正则化,即使得lasso的某些系数刚好为零 ♠lasso也有alpha,与岭回归相同,alpha代表了约束力的大小,但在lasso中增大alpha的同时,要增大最大迭代次数max_iter(默认为1000) alpha不能设置的过小,否则会消除正则化的效果。
阅读全文
摘要:•R2是一个回归模型的评价标准,也叫作决定系数,位于0~1之间,越接近1表示预测效果越好 训练集和数据集的分数非常接近,说明可能存在欠拟合 训练集的分数很好但测试集的分数不好,说明存在过拟合 •线性回归(普通最小二乘法 OLS): 寻找w和b,使得训练集的预测值与真实的回归目标值之间的均方误差最小。
阅读全文
摘要:•python机器学习基础教程 P34 ax.plot(X_train, y_train, '^', c = mglearn.cm2(0), markersize = 8) 中 c = mglearn.cm2(0)和markersize = 8的含义 •mglearn.plots.plot_2d_s
阅读全文
摘要:•line = np.linspace(-3, 3, 1000).reshape(-1, 1) np.linspace(-3, 3, 100)用来返回-3到3之间的100个等间距的数字,返回值是一个列表 np.linspace(): https://blog.csdn.net/u013555719/
阅读全文