机器学习知识 - 随笔分类 - 耀扬

python如何Fleiss Kappa

摘要：目的检验数据一致性示例机器学习中涉及新数据集发布的论文通常会描述数据集的构建过程，一份数据集往往由多位标注员共同完成，不同标注员对数据的理解很容易存在偏差，这极大程度上会影响数据集的一致性，从而限制算法的性能。因此在构建数据集的标注过程中，大多数构建数据集的工作都会对标注员之间的标注一致性进行阅读全文

posted @ 2024-12-06 18:00 耀扬阅读(307) 评论(0) 推荐(0)

pandas读mysql数据库做EDA（探索性数据分析）

摘要：import pandas as pd from pandas_profiling import ProfileReport import pymysql con='mysql+pymysql://root:1234@127.0.0.1:3306/employees' sql = 'select * 阅读全文

posted @ 2022-09-13 17:13 耀扬阅读(38) 评论(0) 推荐(0)

机器学习中什么是baselines

摘要：baseline 就只是「参照物」的意思如果你是机器学习的初学者，在做课程作业，那么你可能用「随机猜测」作为 baseline；如果你是要在顶会发论文，那么很可能就需要用当前最好的系统（称为 state of the art）来作 baseline，否则审稿人就会质疑。如果你的论文的论点是「我针阅读全文

posted @ 2021-09-14 18:39 耀扬阅读(2427) 评论(0) 推荐(0)

深度学习-学习率

摘要：原作地址学习率 (learning rate)，控制模型的学习进度 lr 即 stride (步长) ||学习率大|学习率小| |-|-|-| |学习速度|快|慢| |使用时间点|刚开始训练时|一定轮数过后| |副作用|1.易损失值爆炸；2.易振荡。|1.易过拟合；2.收敛速度慢。| 学习阅读全文

posted @ 2020-07-26 14:18 耀扬阅读(566) 评论(0) 推荐(0)

深度学习-三个概念：Epoch, Batch, Iteration

摘要：原文地址深度学习 | 三个概念：Epoch, Batch, Iteration 参考学习做笔记在训练神经网络的时候，我们会看到Batch、Epoch和Iteration这几个概念。名词解释： |名词|定义| |-|-| |Epoch|使用训练集的全部数据对模型进行一次完整的训练，被称之为“一代训阅读全文

posted @ 2020-07-24 18:01 耀扬阅读(2110) 评论(0) 推荐(2)

fastText window10安装

摘要：直接使用pip安装报错一看就是老问题，又是因为本机C++编译器版本的问题。没事，老外有热心公益的 Unofficial Windows Binaries for Python Extension Packages 人家都给你编译好了根据自己的版本进行选择把文件放个简单的路径下，如E盘根目录，阅读全文

posted @ 2020-07-22 11:28 耀扬阅读(675) 评论(0) 推荐(0)

F1值，准确率，召回率

摘要：1、混淆矩阵混淆矩阵中T、F、P、N的含义： T:真，F:假，P:阳性，N:阴性然后组合： TP:真阳性 TN:真阴性 FP:假阳性 FN:假阴性 2、准确率准确率：反映了系统对正样本预测的准确性正确分类的样本数与总样本数之比 Accuracy=(TP+TN)/总样本数量 3、精确率：你认阅读全文

posted @ 2020-07-20 14:26 耀扬阅读(4500) 评论(0) 推荐(0)

xgboost学习笔记

摘要：一句话定义xgboost 很简单：Xgboost就是由很多CART树集成。什么是CART树？数据挖掘或机器学习中使用的决策树有两种主要类型：分类树分析是指预测结果是数据所属的类（比如某个电影去看还是不看）回归树分析是指预测结果可以被认为是实数（例如房屋的价格，或患者在医院中的逗留时间）而术阅读全文

posted @ 2020-04-04 15:32 耀扬阅读(214) 评论(0) 推荐(0)

数据分析常用数据集下载

摘要：经常用到数据分析常用的数据集，收集挺麻烦的。取之于网络，还之于人民 |数据集名称|下载地址|数据集介绍| | | | | |天池二手车价格预测|链接：https://pan.baidu.com/s/1n3qRxNhmmUMugkYiFSTKQQ 提取码：66ri|| |用户对品类下店铺的购买预测|链阅读全文

posted @ 2020-03-03 21:35 耀扬阅读(12312) 评论(0) 推荐(2)

数据分析之KAGGLE-泰坦尼克号人员生存预测问题

摘要：本文参考 handsye https://blog.csdn.net/handsye/article/details/83999641 对部分内容进行了修正和整理数据分析之KAGGLE 泰坦尼克号人员生存预测问题分析目的完成对什么样的人可能生存的分析。数据说明 |特征|描述| | || |s 阅读全文

posted @ 2020-03-03 17:58 耀扬阅读(993) 评论(0) 推荐(0)

最全模型实战Pima印第安人数据集上的机器学习-分类算法（逻辑回归、朴素贝叶斯、K近邻、决策树、支持向量机、xgboost、lightgbm）

摘要：本文主要参考自爱吃串串的瘦子 https://blog.csdn.net/weixin_41988628/article/details/83051712 易悠 https://blog.csdn.net/yizheyouye/article/details/79791473 对部分内容进行了修正阅读全文

posted @ 2020-03-02 21:32 耀扬阅读(2388) 评论(0) 推荐(0)

数据分析训练-Pima印第安人数据集上的机器学习-分类算法（根据诊断措施预测糖尿病的发病）

摘要：本文主要内容摘自易悠博主的 Pima印第安人数据集上的机器学习分类算法（根据诊断措施预测糖尿病的发病） https://blog.csdn.net/yizheyouye/article/details/79791473 在一些地方做了补充说明，便于小白理解。数据集简介该数据集最初来自国家糖阅读全文

posted @ 2020-03-01 23:06 耀扬阅读(4282) 评论(0) 推荐(0)

pandas快速手册

摘要：修改列名分组语句出图滑窗计算转化时间函数并按日期分组根据所选内容出图查看dataframe信息删除某列信息去除重复的行信息 1. 去除完全重复的行数据 2. 去除某几列重复的行数据 subset：列名，可选，默认为None keep： {‘first’, ‘last’, False 阅读全文

posted @ 2020-02-29 14:21 耀扬阅读(280) 评论(0) 推荐(0)

回归评价指标MSE、RMSE、MAE、R-Squared

摘要：简书原作者 skullfang https://www.jianshu.com/p/9ee85fdad150 https://blog.csdn.net/zrh_CSDN/article/details/81190001 分类问题的评价指标是准确率，那么回归算法的评价指标就是MSE，RMSE，MA 阅读全文

posted @ 2020-02-26 23:24 耀扬阅读(3238) 评论(0) 推荐(0)

应用统计学习笔记2

摘要：第一部分：抽样常用概念残差: 残差在数理统计中是指实际观察值与估计值（拟合值）之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话，我们可以将残差看作误差的观测值。它应符合模型的假设条件，且具有误差的一些性质。利用残差所提供的信息，来考察模型假设的合理性及数据的可靠性称为阅读全文

posted @ 2020-02-25 21:24 耀扬阅读(1412) 评论(0) 推荐(0)

统计学知识笔记

摘要：统计和概率一维：就是当前摆在我们面前的“一组”，“一批”，哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。二维：就是研究某个“事件”，笔者认为事件是依托于“时间轴”存在的，过去是否发生，现在是可能会出现几种情况，每种情况未来发生的可能性有多大？这类问题是属于概率论的范畴。分析：阅读全文

posted @ 2020-02-25 11:49 耀扬阅读(1840) 评论(0) 推荐(0)

什么是迁移学习

摘要：迁移学习就是在一个很大的数据库上对模型进行预训练，再将这个预训练过的模型用于其他任务上，有点类似于 NLP 中的 Word Embedding。举个例子，假设你有一个经过训练的 ML 模型 A 来识别动物的图片，你可以用 A 来训练识别狗的图片的模型 D。就数据而言，训练 D 需要向 A 添加一些阅读全文

posted @ 2020-02-19 09:37 耀扬阅读(364) 评论(0) 推荐(0)

理解LSTM笔记

摘要：原文：https://www.jianshu.com/p/95d5c461924c 感谢作者循环神经网络（Recurrent Neural Networks）人对一个问题的思考不会完全从头开始。比如你在阅读本片文章的时，你会根据之前理解过的信息来理解下面看到的文字。在理解当前文字的时候，你并不会阅读全文

posted @ 2020-02-17 13:44 耀扬阅读(253) 评论(0) 推荐(0)

常用的激活函数

摘要：什么是激活函数？激活函数（Activation functions）对于人工神经网络 [1] 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如图1，在神经元中，输入的 inputs 通过加权，求和后，还被作用了一个函数，这个函数就是激活函数。引入阅读全文

posted @ 2020-02-17 11:30 耀扬阅读(370) 评论(0) 推荐(0)

机器学习中的MLE、MAP、贝叶斯估计

摘要：原文地址：https://zhuanlan.zhihu.com/p/72370235 好文必须共享，感谢贪心科技的李文哲老师。讲得非常透彻。以下是我的学习笔记 MLE(极大似然估计)、MAP(最大后验估计)以及贝叶斯估计(Bayesian) 三者的关系是什么呢？一个具体的例子 "张三想从清华计算阅读全文

posted @ 2020-02-13 22:23 耀扬阅读(949) 评论(0) 推荐(1)

耀扬

随笔分类 - 机器学习知识