猫七的blog

2024年3月17日

IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)

摘要：什么是目标类别不平衡？假设你训练集中数据的目标类别的分布较为均匀，那么这样的数据集所建立的分类模型，通常会有比较好的分类效能。假设你训练集中数据的目标类别的分布不均匀（存在Majority Class和Minority Class的时候），那么这样的数据集造成的问题是分类模型通常倾向将所有数据预阅读全文

posted @ 2024-03-17 12:06 猫七的blog 阅读(9) 评论(0) 推荐(0) 编辑

2024年2月24日

强化学习系列（一）

摘要： 1.为什么要学习强化学习？训练大模型时，不能仅仅使用有监督微调。这是因为NLP中语言的多样性，大模型给出的很多答案的含义是一样的。并且有监督微调通常需要大量的高质量问答文本，这类文本的整理需要耗费大量的人力与时间成本。强化学习的优化目标不再是让模型输出结果与标准答案相同，而是要使模型生成高质阅读全文

posted @ 2024-02-24 21:40 猫七的blog 阅读(2) 评论(0) 推荐(0) 编辑

2023年4月8日

C4.5分类树算法介绍

摘要：为什么C4.5会出现？因为ID3算法节点的分支越多，信息增益也就越大，这会出现过拟合的现象，因此提出C4.5算法。图1 C4.5的属性选择方法——获利比例获利比例=信息增益/分支度IV 分支度IV与各分支下的类别数目之比成负相关：假如14个样本一共分4支: 划分方法1为：分支1数目：分支2数阅读全文

posted @ 2023-04-08 22:01 猫七的blog 阅读(64) 评论(0) 推荐(0) 编辑

2023年3月24日

matplotlib_____python中文乱码问题_CentOS系统

摘要：问题描述 python中数据可视化工具matplotlib的使用时，使用中文标题、中文坐标轴时出现乱码。解决方法 STEP1:从官方网站、CSDN等下载中文字体库SimHei.ttf文件。 STEP2:拷贝字体到 /usr/share/fonts（基本每个Linux系统都有这个目录，文件移动需要r 阅读全文

posted @ 2023-03-24 13:54 猫七的blog 阅读(49) 评论(0) 推荐(0) 编辑

2022年1月27日

谈工作中遇到的数据倾斜问题

摘要：问题呈现：在hive中写SQL生成的MapReduce程序，卡了12个小时。问题原因：经过我的一番调查，认为是产生了数据倾斜，我的主表需要4个表一块union all，所以数据量还是很多的。 collect_list输出一个数组，中间结果会放到内存中，所以如果collect_list聚合太多数阅读全文

posted @ 2022-01-27 14:39 猫七的blog 阅读(157) 评论(0) 推荐(0) 编辑

2021年7月6日

ensemble learning

摘要： ensemble learning（中文名：集成学习）概念介绍集成学习这一概念，在目前各大数据挖掘竞赛中使用的非常广泛。它的主要原理是将多个模型的决策结合起来，提高整体的预测效果。这一概念可以进一步分类，大致可划分为：模型融合与机器学习元算法模型融合技术：将训练出的强学习器组合起来，进一步来阅读全文

posted @ 2021-07-06 22:27 猫七的blog 阅读(72) 评论(0) 推荐(0) 编辑

2021年7月3日

duck typing

摘要： Python def download(retriever): return retriever.get("www.baidu.com"); C++ template <class R> string download(const R& retriever){ return retriever.ge 阅读全文

posted @ 2021-07-03 09:56 猫七的blog 阅读(34) 评论(0) 推荐(0) 编辑

2021年6月5日

毕业小计

摘要：昨晚荆州的天空是火烧云，一片又有一片引得行人停下拍照。我在电车上等着朋友拿关东煮，不时望着周围，一到晚上，校园里就变得热闹起来。有情侣牵手走路的，有路上卖花的，有坐在路边椅子上聚群聊天的，还有下课正走回宿舍的路上的。印象中，我的大学几年，很少有几次这么细致的观察。更多的是匆匆的路过这条路，在教室和阅读全文

posted @ 2021-06-05 16:33 猫七的blog 阅读(58) 评论(0) 推荐(0) 编辑

2021年5月26日

Mutual Information

摘要：介绍当你有面对一大堆特征手无足措的时候，这时候你应该先考虑生成一个特征效用度量：特征效用度量又叫互信息，互信息与相关系数类似，都是衡量两个数值的关系的，但区别是相关系数只能检测线性关系，而互信息可以检测任何一种关系。用法：当互信息等于0时，数值之间是没有关系的。互信息取值不设上限，然而大于2 阅读全文

posted @ 2021-05-26 03:25 猫七的blog 阅读(521) 评论(0) 推荐(0) 编辑

2021年3月31日

数据倾斜问题

摘要： hive 卡在stage99%往往是因为数据发生了倾斜阅读全文

posted @ 2021-03-31 14:11 猫七的blog 阅读(35) 评论(0) 推荐(0) 编辑

https://www.cnblogs.com/liuguangshou123/

公告