06 2019 档案
摘要:sns.heatmap -这告诉笔记本我们要创建一个heatmap。 data=data_airplot -这告诉笔记本使用航班数据中的所有条目来创建热图。 annot=true -这可以确保每个单元格的值显示在图表上。(去掉这个会删除每个单元格中的数字!) # 返回列表中最大值的索引 np.arg
阅读全文
摘要:# 数据预处理 data.dropna(axis=0) # 取出掉缺失值 按行 melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude'] X = melbourne_data[melbourne
阅读全文
摘要:优点:适合小样本数量,高特征维度的数据 目标:达到二值分类的目的 选择超平面的依据: 无法找到其他绘制方法使两条虚线间的距离更大 最优超平面到两种类型数据其最近的点有相同的距离 间隔问题 硬间隔: 可能会出现过度拟合的现象 软间隔: 在训练时允许有一定的误差 可以解决线性不可分问题 升维映射到高维空
阅读全文
摘要:恢复内容开始 梯度下降的定义: 梯度下降是一种因为计算机储存及能力有限,采取逐步逼近,迭代求解的方法. 梯度下降的步骤: 任取一点作为起始点 查看在当前点向那个方向移动能得到最小的z值,并向该方向移动. 重复该步骤,直到无法找到更小的z值,此时认为达到最低点. 几个基础的算法概念: 步长:是每一次梯
阅读全文
摘要:为了解决Ridge产生的较大的计算,Lasso很好的解决了这一问题. Ridge的规范化是 aΣw2 Lasso的规范化是aΣ|w| 但是Lasso的惩罚效果却比Ridge严厉的多.可以把很多的w都惩罚为0. 实战: Out: alpha 1.000000e-10 intercept_ :coef_
阅读全文
摘要:岭回归是对OLS的改进,防止OLS随着维度使回归参数疯狂的增长. 在最小二乘法的基础上增加了惩罚项:aΣw2 a是一个可以调节的超参数,w是线性模型中所有参数的权重. 废话不多说,直接实战: 结果: 可以看出 a越大,回归参数越小,模型越平缓. 不足: 可以看出岭回归的模型参数都只有非常小的绝对值,
阅读全文
摘要:OLS就是最小二乘法,(Ordinary Least Squares),它通过最小化样本真值与预测值之间的方差和来达到计算出方程系数的目的. 实战: from sklearn import linear_modelimport numpy as np x = np.array([[0,1],[3,-
阅读全文
摘要:AP算法,具有结果稳定可重现 训练前不用制定K-means中K值,但是算法的时间复杂度比K-means高 AP 的中心点是样本中的某一个点,而K-means不是. import numpy as npfrom sklearn.cluster import AffinityPropagation #
阅读全文
摘要:这是一个非常简单的聚类算法,算法的目的就是找到这些中心点的合适坐标,使得所有样本到其分组中心点距离的平方和最小. K-means 的中心点向量不一定是训练样本中某成员的位置 import numpy as npfrom sklearn.cluster import KMeans # 引入K-mean
阅读全文
摘要:1.如何查看神经网络的性能 通过测试集及其打分卡 2.如何提高神经网络的性能呢? 1.使用完整数据集进行训练和测试 2.一些改进:调整学习率 3.一些改进:多次运行 我们把训练一次称为一个世代,每训练一次就意味着多给神经网络一次下坡的机会,这有利于梯度下降过程中进行权重的更新 4.改变网络的形状 (
阅读全文
摘要:恢复内容开始 1.1 尺有所短,寸有所长 1.2预测器 1.所有有用的计算机系统都有一个输入和输出,并在输入和输出之间进行某种类型的计算,神经网络也是如此。 2.机器接受了一个输入,并作出应有的预测,输出结果。我们称之为预测器。我们根据结果与已知的真实案例进行比较所得到的误差,调整内部参数,使预测更
阅读全文
摘要:1.grep --> 全局正则表达式 入门搜索格式 语法 grep 'hacked by' web.log 将会在web.log中,匹配含有hacked by的行 - i 忽略大小写 -n 显示行数 -w 只包括这一个单词 -c 显示有多少个 -f 一般文件 -v 反选 -A -3 -B -3 顺便
阅读全文
摘要:01机器学习可能出现的误差 1.过拟合 就是机器读死书,死记硬背,对作业掌握的不错,但是测试时就很糟糕 2.欠拟合 就是机器不好好学习,导致结果不令人满意 02交叉检验-1 平均得分和多次循环求最优解 02交叉检验-2 对结果一步一步的可视化 使用learning_curve分段评估结果的好坏 03
阅读全文
摘要:01机器学习的主要几种方式 1.监督学习 -->就是像学生一样,有平时的训练,也有考试.来训练出的学生就是监督学习的结果 2.非监督学习 -->就像考研一样,没有人会检测你,全靠自己学 3.强化学习 -->一个人打篮球,每投一次球就知道结果,然后靠自己的经验的学习,叫做强化学习 4.遗传算法 -->
阅读全文
摘要:01linux入门 1.基本命令 cd /home 进入一个目录 cd ~ 回到家目录 cd - 回到跳之前的目录 ls 查看当前的文件 此外还有三个参数 -a -l -h mkdir 创建目录 -p可以创建多级目录 touch file.txt 创建一个空文件 echo "Hello linux!
阅读全文
摘要:00 个人总结 PCA(主成分分析法)目的: 1.降低特征间个数,减少的计算量 2.降低特征之间的相关性,使特征之间更加的独立 3.减少噪声对数据的影响,使模型更加的稳定 4.方便数据的可视化 简单步骤: 1.对数据进行零均值化处理 2.计算协方差矩阵 3.计算特征值和特征向量 4.找到n个特征值和
阅读全文
摘要:01numpy的使用 1.numpy的两个基本元素 n维数组和矩阵 # arr type:<class 'numpy.ndarray'>, # mat type:<class 'numpy.matrix'> # Type:<class 'numpy.matrix'># Value:# [[ 2. 6
阅读全文
摘要:01调试与开发 调试做好,最简单的方法就是print,如果一个printa不好用那就用两个p(pprint),需要先导入这个库 from pprint import pprint 结果: 02代码的比较 2.git 比较 git diff old.py new.py(个人不太喜欢) 2.cdiff比
阅读全文
摘要:01 2to3脚本 如何将python2的代码转为python3呢? 这时候python3有一个自带的工具 2to3 只用方法很简单 2to3 old.py -w 就会在原来的基础上跟新成python3的代码 并生成old.py.bak备份文件 如果不想要备份文件只需 2to3 old.py -nw
阅读全文
摘要:01数据结构 1.变量的三种基本类型: 1. 整型(int) 2. 字符串型(string) 3. 浮点型(float) 我们可以使用type()来打印出变量的类型 2.另外四种重要类型 1.集合(set) 2.列表(list) 3.元组(tuple) 4.字典(dict) set和dict内置哈希
阅读全文

浙公网安备 33010602011771号