随笔分类 -  数据分析

python如何Fleiss Kappa
摘要:目的 检验数据一致性 示例 机器学习中涉及新数据集发布的论文通常会描述数据集的构建过程,一份数据集往往由多位标注员共同完成,不同标注员对数据的理解很容易存在偏差,这极大程度上会影响数据集的一致性,从而限制算法的性能。因此在构建数据集的标注过程中,大多数构建数据集的工作都会对标注员之间的标注一致性进行 阅读全文

posted @ 2024-12-06 18:00 耀扬 阅读(307) 评论(0) 推荐(0)

二项分布、泊松分布和正态分布
摘要:二项分布: 你感兴趣的是成功x次的概率是多少 **案例:**抛5次硬币,有2次正面朝上的概率是多少 几何何分布: 你感兴趣的是,进行x次尝试这个事情,取得第1次成功的概率是多大。 **案例:**例如你在玩抛硬币的游戏,想知道抛5次硬币,只有第5次(就是滴1次成功)正面朝上的概率是多大。 泊松分布: 阅读全文

posted @ 2022-09-29 17:23 耀扬 阅读(388) 评论(0) 推荐(0)

pyLDAvis图表无法打开
摘要:利用pyLDAvis研究LDA模型。 遇到了两个问题 1、代码老旧,代码如下: 提示错误,这是pyLDAvis版本升级导致的。 No module named ‘pyLDAvis.gensim’ 改成如下: import pyLDAvis.gensim_models pyLDAvis.enable_ 阅读全文

posted @ 2022-05-31 20:38 耀扬 阅读(889) 评论(0) 推荐(0)

jieba自定义idf库
摘要:先建个list,名字叫:data_content 里面的内容如上图。要把数据处理成上面那样的 先分词、过滤。 最后引入如下代码: import math idf_dic = {} #data_content是分析文本 doc_count = len(data_content) # 总共有多少篇文章 阅读全文

posted @ 2021-02-04 13:04 耀扬 阅读(1124) 评论(0) 推荐(0)

F1值,准确率,召回率
摘要:1、混淆矩阵 混淆矩阵中T、F、P、N的含义: T:真,F:假,P:阳性,N:阴性 然后组合: TP:真阳性 TN:真阴性 FP:假阳性 FN:假阴性 2、准确率 准确率:反映了系统对正样本预测的准确性 正确分类的样本数与总样本数之比 Accuracy=(TP+TN)/总样本数量 3、精确率: 你认 阅读全文

posted @ 2020-07-20 14:26 耀扬 阅读(4500) 评论(0) 推荐(0)

pandas 遍历 dataframe 行数据
摘要:import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}] df = pd.DataFrame(inp) print(df) # pandas 遍历 dataframe 行数据 for 阅读全文

posted @ 2020-07-14 11:23 耀扬 阅读(3606) 评论(0) 推荐(0)

xgboost调参
摘要:最近在做kaggle比赛,xgboost调参是个大问题。耗时,耗力啊。一个参数调半个小时啊。 看得懂吧,每个参数逐步的,调整取值范围。 建议: 每次调一个参数。 每次一个参数,输入3个数,例如:默认参数是 1, 候选范围你可以选择 【0.1,1,10】,一定要差一个数量级,这样可以圈定范围。然后通过 阅读全文

posted @ 2020-04-02 23:20 耀扬 阅读(801) 评论(0) 推荐(0)

kaggle、天池比赛免费的GPU、TPU
摘要:最近在做天池的项目。刚入行,没有gpu,内存只有8g。i5的笔记本。可怜啊。隔三差五的就崩溃一次。千辛万苦算是把数据处理完了。可是计算模型,真的不敢想啊。 最快的是跑了一个决策树,10多分钟吧。还能接受。但是效果不太理想。xgboost斗胆试了一次,跑了8个小时,崩溃了。 寻求帮助吧。 百度的飞浆不 阅读全文

posted @ 2020-03-19 21:15 耀扬 阅读(5162) 评论(1) 推荐(2)

pandas缺失值填充时遇到的问题
摘要:打比赛时,遇到了一个问题。填充空白值的时候,如果使用 固定值,均值啥的都没问题。 但是我想用 但是每次都是报错 经过千辛万苦终于找到了问题的根源。 原来,我在加载数据的时候使用了一个 压缩内存的函数 这里面产生了一种新的数据类型 np.float16 而这种类型,在pandas里是没有的。 pand 阅读全文

posted @ 2020-03-18 23:28 耀扬 阅读(1669) 评论(0) 推荐(1)

pandas统计每一列缺失值函数
摘要:感谢 https://www.jianshu.com/p/9f583668f386 感谢 https://www.cnblogs.com/Mrzhang3389/p/11166800.html 阅读全文

posted @ 2020-03-14 22:28 耀扬 阅读(1013) 评论(0) 推荐(0)

pandas中滑窗rolling的使用
摘要:函数原型和参数说明 window:表示时间窗的大小,注意有两种形式(int or offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型,表示时间窗的大小。 min_periods:最少需要有值的观测点的数量,对于int类型,默认与window相等。 阅读全文

posted @ 2020-03-07 14:41 耀扬 阅读(1113) 评论(0) 推荐(0)

压缩pandas中dataframe内存
摘要:从这里找的一个宝贝源码,可以大大缓解内存问题。https://www.kaggle.com/arjanso/reducing dataframe memory size by 65/code 阅读全文

posted @ 2020-03-06 23:02 耀扬 阅读(831) 评论(0) 推荐(0)

Pandas与SQL语句对照
摘要:Pandas与SQL语句对照 建立学生 课程数据库 表结构 student |字段名|类型|备注| | | | | |sno|char|学号| |sname|char|姓名| |ssex|bool|性别| |sage|int|年龄| |sdept|char|所在系| course |字段名|类型|备 阅读全文

posted @ 2020-03-06 16:18 耀扬 阅读(1622) 评论(0) 推荐(0)

pandas读取文件内存压缩妙招
摘要:pandas读取csv文件体积太大。偶从网上发现一个好方法。就是缩小数字类型的位数。 例如:int64缩小到 int8那是最好了。依据他们的 取值范围 ,来选定数据类型。 压缩率老高了。 感谢一下 :光于前裕于后 https://blog.csdn.net/Dr_Guo/article/detail 阅读全文

posted @ 2020-03-05 15:09 耀扬 阅读(1260) 评论(0) 推荐(1)

pandas 日期时间数据的分割提取操作
摘要:参考 https://blog.csdn.net/weixin_44663675/article/details/101030800 阅读全文

posted @ 2020-03-04 13:47 耀扬 阅读(7278) 评论(0) 推荐(0)

数据分析常用数据集下载
摘要:经常用到数据分析常用的数据集,收集挺麻烦的。取之于网络,还之于人民 |数据集名称|下载地址|数据集介绍| | | | | |天池二手车价格预测|链接:https://pan.baidu.com/s/1n3qRxNhmmUMugkYiFSTKQQ 提取码:66ri|| |用户对品类下店铺的购买预测|链 阅读全文

posted @ 2020-03-03 21:35 耀扬 阅读(12312) 评论(0) 推荐(2)

数据分析之KAGGLE-泰坦尼克号人员生存预测问题
摘要:本文参考 handsye https://blog.csdn.net/handsye/article/details/83999641 对部分内容进行了修正和整理 数据分析之KAGGLE 泰坦尼克号人员生存预测问题 分析目的 完成对什么样的人可能生存的分析。 数据说明 |特征|描述| | || |s 阅读全文

posted @ 2020-03-03 17:58 耀扬 阅读(993) 评论(0) 推荐(0)

jupyter 常用快捷方式
摘要:|命令|功能| | | | |Ctrl+enter|执行本cell| |alt+enter|执行本cell且 向下建立一个新cell| |esc+m|m 把cell切换至markdown模式| |esc+y|y 把cell切换至code模式| |a|在上方新建cell , 命令模式| |b|在下方新 阅读全文

posted @ 2020-03-03 12:17 耀扬 阅读(201) 评论(0) 推荐(0)

jupyter代码自动补全等常用扩展功能
摘要:1.代码补全 先要关闭 jupyter!!! 运行下面两行代码 启动jyputer 2. 代码导航 勾选Table of Contents 启用插件 你用Markdown写的注解,居然有类似word的导航图。 3. 变量检查器 勾选Variable Inspector 启用插件 啥也不说了,此功能必 阅读全文

posted @ 2020-03-03 10:15 耀扬 阅读(1114) 评论(0) 推荐(0)

最全模型实战Pima印第安人数据集上的机器学习-分类算法(逻辑回归、朴素贝叶斯、K近邻、决策树、支持向量机、xgboost、lightgbm)
摘要:本文主要参考自 爱吃串串的瘦子 https://blog.csdn.net/weixin_41988628/article/details/83051712 易悠 https://blog.csdn.net/yizheyouye/article/details/79791473 对部分内容进行了修正 阅读全文

posted @ 2020-03-02 21:32 耀扬 阅读(2388) 评论(0) 推荐(0)

导航