09 2021 档案
摘要:逻辑回归是解决二分类问题的利器: 广告点击率 判断用户的性别 预测用户是否会购买给定的商品类 判断一条评论是正面的还是负面的 逻辑回归公式: 良/恶性乳腺癌肿瘤预测 API:sklearn.linear_model.LogisticRegression import pandas as pd imp
阅读全文
摘要:过拟合与欠拟合 欠拟合(欠配):训练样本的一般特性尚未学好,通常是由于学习能力低下而造成的。 过拟合(过配):最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学习到了。 一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此
阅读全文
摘要:开学没时间,就直接放代码了。。。 线性回归器是最为简单、易用的回归模型。 从某种程度上限制了使用,尽管如此,在不知道特征之间关系的前提下,我们仍然使用线性回归器作为大多数系统的首要选择。 小规模数据:LinearRegression(不能解决拟合问题)以及其它 大规模数据:SGDRegressor
阅读全文
摘要:决策树零基础入门,关于基尼系数的决策树,上课无聊刷手机刷到的( 熵、信息增益、基尼系数 知乎上看到的,比较好看懂 下面都是看视频的截图和代码( 信息熵 例子: 决策树 常见决策树使用的算法 ID3 信息增益 最大的准则 C4.5 信息增益比 最大的准则 CART 回归树: 平方误差 最小 分类树:
阅读全文
摘要:k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover和Hart提出的一种分类算法 优点: 简单,易于理解,易于实现,无需估计参数,无需训练 缺点: 懒惰算法,对测试样本分类时
阅读全文
摘要:题意:n维空间中存在一个超维球,求2点不通过圆(可以经过球表面)的最短距离 解:两点确定一条直线,3点确定一个平面,有了球心和另外两点就可以确定出一个2维平面,直接以球心为原点,其中一个点为X轴上一点建2维坐标系(这个点的坐标为(它和球心的距离, 0))。之后就是求线段和圆的位置关系了。 ↓直接从*
阅读全文
摘要:数据集划分 机器学习一般的数据集会划分为两个部分: 训练数据(训练集):用于训练,构建模型 测试数据(测试集):在模型检验时使用,用于评估模型是否有效 训练集和测试集的比一般有7:3, 4:1, 3:1 划分的api : sklearn.model_selection.train_test_spli
阅读全文
摘要:单纯的调库,没有原理和数学推导。。。 数据降维 1、特征选择 2、主成分分析 特征选择 特征选择的原因: 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有负影响 特征选择是什么? 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、
阅读全文
摘要:数据集的组成 机器学习的数据一般从文件中读取,而不是从数据库中读取。比如说mysql:1、性能有瓶颈;2、格式不太符合机器学习数据的格式。 数据的处理工具: 读取工具:pandas 释放了GIL,速度非常快:numpy GIL锁(CPython多线程操作的锁限制(历史遗留问题)): In CPyth
阅读全文
摘要:施工中。。。 目录 笔记板子向随笔 暂时只有2维,有时间再去弄个三维的 1、一些基础运算函数与结构体定义(部分板子) 2、一些基础的变换公式 一、一些基础运算函数与结构体定义 double pi = acos(-1); const double eps = 1e-6; inline int dcmp
阅读全文
摘要:一句话点分治:每次找到树的重心,暴力或者不暴力处理以这个重心为分界点的 各个子树 之间 产生的贡献,然后删除这个点,产生很多树,对每棵子树重复上述操作。。。 有点像dsu on tree,都是通过均摊来实现nlogn P3806 提供一种离线处理询问的做法: 点分的过程中在对root的单独处理时,每
阅读全文

浙公网安备 33010602011771号