随笔分类 -  机器学习知识

python如何Fleiss Kappa
摘要:目的 检验数据一致性 示例 机器学习中涉及新数据集发布的论文通常会描述数据集的构建过程,一份数据集往往由多位标注员共同完成,不同标注员对数据的理解很容易存在偏差,这极大程度上会影响数据集的一致性,从而限制算法的性能。因此在构建数据集的标注过程中,大多数构建数据集的工作都会对标注员之间的标注一致性进行 阅读全文

posted @ 2024-12-06 18:00 耀扬 阅读(307) 评论(0) 推荐(0)

pandas读mysql数据库做EDA(探索性数据分析)
摘要:import pandas as pd from pandas_profiling import ProfileReport import pymysql con='mysql+pymysql://root:1234@127.0.0.1:3306/employees' sql = 'select * 阅读全文

posted @ 2022-09-13 17:13 耀扬 阅读(38) 评论(0) 推荐(0)

机器学习中什么是baselines
摘要:baseline 就只是「参照物」的意思 如果你是机器学习的初学者,在做课程作业,那么你可能用「随机猜测」作为 baseline;如果你是要在顶会发论文,那么很可能就需要用当前最好的系统(称为 state of the art)来作 baseline,否则审稿人就会质疑。 如果你的论文的论点是「我针 阅读全文

posted @ 2021-09-14 18:39 耀扬 阅读(2427) 评论(0) 推荐(0)

深度学习-学习率
摘要:原作地址 学习率 (learning rate),控制 模型的 学习进度 lr 即 stride (步长) ||学习率 大|学习率 小| |-|-|-| |学习速度|快|慢| |使用时间点|刚开始训练时|一定轮数过后| |副作用|1.易损失值爆炸;2.易振荡。|1.易过拟合;2.收敛速度慢。| 学习 阅读全文

posted @ 2020-07-26 14:18 耀扬 阅读(566) 评论(0) 推荐(0)

深度学习-三个概念:Epoch, Batch, Iteration
摘要:原文地址深度学习 | 三个概念:Epoch, Batch, Iteration 参考学习做笔记 在训练神经网络的时候,我们会看到Batch、Epoch和Iteration这几个概念。 名词解释: |名词|定义| |-|-| |Epoch|使用训练集的全部数据对模型进行一次完整的训练,被称之为“一代训 阅读全文

posted @ 2020-07-24 18:01 耀扬 阅读(2110) 评论(0) 推荐(2)

fastText window10安装
摘要:直接使用pip安装报错 一看就是老问题,又是因为本机C++编译器版本的问题。 没事,老外有热心公益的 Unofficial Windows Binaries for Python Extension Packages 人家都给你编译好了 根据自己的版本进行选择 把文件放个简单的路径下,如E盘根目录, 阅读全文

posted @ 2020-07-22 11:28 耀扬 阅读(675) 评论(0) 推荐(0)

F1值,准确率,召回率
摘要:1、混淆矩阵 混淆矩阵中T、F、P、N的含义: T:真,F:假,P:阳性,N:阴性 然后组合: TP:真阳性 TN:真阴性 FP:假阳性 FN:假阴性 2、准确率 准确率:反映了系统对正样本预测的准确性 正确分类的样本数与总样本数之比 Accuracy=(TP+TN)/总样本数量 3、精确率: 你认 阅读全文

posted @ 2020-07-20 14:26 耀扬 阅读(4500) 评论(0) 推荐(0)

xgboost学习笔记
摘要:一句话定义xgboost 很简单:Xgboost就是由很多CART树集成。 什么是CART树? 数据挖掘或机器学习中使用的决策树有两种主要类型: 分类树分析是指预测结果是数据所属的类(比如某个电影去看还是不看) 回归树分析是指预测结果可以被认为是实数(例如房屋的价格,或患者在医院中的逗留时间) 而术 阅读全文

posted @ 2020-04-04 15:32 耀扬 阅读(214) 评论(0) 推荐(0)

数据分析常用数据集下载
摘要:经常用到数据分析常用的数据集,收集挺麻烦的。取之于网络,还之于人民 |数据集名称|下载地址|数据集介绍| | | | | |天池二手车价格预测|链接:https://pan.baidu.com/s/1n3qRxNhmmUMugkYiFSTKQQ 提取码:66ri|| |用户对品类下店铺的购买预测|链 阅读全文

posted @ 2020-03-03 21:35 耀扬 阅读(12312) 评论(0) 推荐(2)

数据分析之KAGGLE-泰坦尼克号人员生存预测问题
摘要:本文参考 handsye https://blog.csdn.net/handsye/article/details/83999641 对部分内容进行了修正和整理 数据分析之KAGGLE 泰坦尼克号人员生存预测问题 分析目的 完成对什么样的人可能生存的分析。 数据说明 |特征|描述| | || |s 阅读全文

posted @ 2020-03-03 17:58 耀扬 阅读(993) 评论(0) 推荐(0)

最全模型实战Pima印第安人数据集上的机器学习-分类算法(逻辑回归、朴素贝叶斯、K近邻、决策树、支持向量机、xgboost、lightgbm)
摘要:本文主要参考自 爱吃串串的瘦子 https://blog.csdn.net/weixin_41988628/article/details/83051712 易悠 https://blog.csdn.net/yizheyouye/article/details/79791473 对部分内容进行了修正 阅读全文

posted @ 2020-03-02 21:32 耀扬 阅读(2388) 评论(0) 推荐(0)

数据分析训练-Pima印第安人数据集上的机器学习-分类算法(根据诊断措施预测糖尿病的发病)
摘要:本文主要内容摘自 易悠 博主的 Pima印第安人数据集上的机器学习 分类算法(根据诊断措施预测糖尿病的发病) https://blog.csdn.net/yizheyouye/article/details/79791473 在一些地方做了补充说明,便于小白理解。 数据集简介 该数据集最初来自国家糖 阅读全文

posted @ 2020-03-01 23:06 耀扬 阅读(4282) 评论(0) 推荐(0)

pandas快速手册
摘要:修改列名 分组语句出图 滑窗计算 转化时间函数 并按日期分组 根据所选内容出图 查看dataframe信息 删除某列信息 去除重复的行信息 1. 去除完全重复的行数据 2. 去除某几列重复的行数据 subset: 列名,可选,默认为None keep: {‘first’, ‘last’, False 阅读全文

posted @ 2020-02-29 14:21 耀扬 阅读(280) 评论(0) 推荐(0)

回归评价指标MSE、RMSE、MAE、R-Squared
摘要:简书 原作者 skullfang https://www.jianshu.com/p/9ee85fdad150 https://blog.csdn.net/zrh_CSDN/article/details/81190001 分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MA 阅读全文

posted @ 2020-02-26 23:24 耀扬 阅读(3238) 评论(0) 推荐(0)

应用统计学习笔记2
摘要:第一部分:抽样 常用概念 残差: 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话, 我们可以将残差看作误差的观测值。 它应符合模型的假设条件,且具有误差的一些性质。利用残差所提供的信息,来考察模型假设的合理性及数据的可靠性称为 阅读全文

posted @ 2020-02-25 21:24 耀扬 阅读(1412) 评论(0) 推荐(0)

统计学知识笔记
摘要:统计和概率 一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。 二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。 分析: 阅读全文

posted @ 2020-02-25 11:49 耀扬 阅读(1840) 评论(0) 推荐(0)

什么是迁移学习
摘要:迁移学习就是在一个很大的数据库上对模型进行预训练,再将这个预训练过的模型用于其他任务上,有点类似于 NLP 中的 Word Embedding。 举个例子,假设你有一个经过训练的 ML 模型 A 来识别动物的图片,你可以用 A 来训练识别狗的图片的模型 D。就数据而言,训练 D 需要向 A 添加一些 阅读全文

posted @ 2020-02-19 09:37 耀扬 阅读(364) 评论(0) 推荐(0)

理解LSTM笔记
摘要:原文:https://www.jianshu.com/p/95d5c461924c 感谢作者 循环神经网络(Recurrent Neural Networks) 人对一个问题的思考不会完全从头开始。比如你在阅读本片文章的时,你会根据之前理解过的信息来理解下面看到的文字。在理解当前文字的时候,你并不会 阅读全文

posted @ 2020-02-17 13:44 耀扬 阅读(253) 评论(0) 推荐(0)

常用的激活函数
摘要:什么是激活函数? 激活函数(Activation functions)对于人工神经网络 [1] 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如图1,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数。引入 阅读全文

posted @ 2020-02-17 11:30 耀扬 阅读(370) 评论(0) 推荐(0)

机器学习中的MLE、MAP、贝叶斯估计
摘要:原文地址:https://zhuanlan.zhihu.com/p/72370235 好文必须共享,感谢贪心科技的李文哲老师。讲得非常透彻。 以下是我的学习笔记 MLE(极大似然估计)、MAP(最大后验估计)以及贝叶斯估计(Bayesian) 三者的关系是什么呢? 一个具体的例子 "张三想从清华计算 阅读全文

posted @ 2020-02-13 22:23 耀扬 阅读(949) 评论(0) 推荐(1)

导航