摘要: 什么是目标类别不平衡? 假设你训练集中数据的目标类别的分布较为均匀,那么这样的数据集所建立的分类模型,通常会有比较好的分类效能。 假设你训练集中数据的目标类别的分布不均匀(存在Majority Class和Minority Class的时候),那么这样的数据集造成的问题是分类模型通常倾向将所有数据预 阅读全文
posted @ 2024-03-17 12:06 猫七的blog 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 1.为什么要学习强化学习? 训练大模型时,不能仅仅使用有监督微调。 这是因为NLP中语言的多样性,大模型给出的很多答案的含义是一样的。 并且有监督微调通常需要大量的高质量问答文本,这类文本的整理需要耗费大量的人力与时间成本。 强化学习的优化目标不再是让模型输出结果与标准答案相同,而是要使模型生成高质 阅读全文
posted @ 2024-02-24 21:40 猫七的blog 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 为什么C4.5会出现? 因为ID3算法节点的分支越多,信息增益也就越大,这会出现过拟合的现象,因此提出C4.5算法。 图1 C4.5的属性选择方法——获利比例 获利比例=信息增益/分支度IV 分支度IV与各分支下的类别数目之比成负相关: 假如14个样本一共分4支: 划分方法1为:分支1数目:分支2数 阅读全文
posted @ 2023-04-08 22:01 猫七的blog 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 问题描述 python中数据可视化工具matplotlib的使用时,使用中文标题、中文坐标轴时出现乱码。 解决方法 STEP1:从官方网站、CSDN等下载中文字体库SimHei.ttf文件。 STEP2:拷贝字体到 /usr/share/fonts(基本每个Linux系统都有这个目录,文件移动需要r 阅读全文
posted @ 2023-03-24 13:54 猫七的blog 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 问题呈现: 在hive中写SQL生成的MapReduce程序,卡了12个小时。 问题原因: 经过我的一番调查,认为是产生了数据倾斜,我的主表需要4个表一块union all,所以数据量还是很多的。 collect_list输出一个数组,中间结果会放到内存中,所以如果collect_list聚合太多数 阅读全文
posted @ 2022-01-27 14:39 猫七的blog 阅读(157) 评论(0) 推荐(0) 编辑
摘要: ensemble learning(中文名:集成学习)概念介绍 集成学习这一概念,在目前各大数据挖掘竞赛中使用的非常广泛。 它的主要原理是将多个模型的决策结合起来,提高整体的预测效果。 这一概念可以进一步分类,大致可划分为:模型融合与机器学习元算法 模型融合技术:将训练出的强学习器组合起来,进一步来 阅读全文
posted @ 2021-07-06 22:27 猫七的blog 阅读(72) 评论(0) 推荐(0) 编辑
摘要: Python def download(retriever): return retriever.get("www.baidu.com"); C++ template <class R> string download(const R& retriever){ return retriever.ge 阅读全文
posted @ 2021-07-03 09:56 猫七的blog 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 昨晚荆州的天空是火烧云,一片又有一片引得行人停下拍照。 我在电车上等着朋友拿关东煮,不时望着周围,一到晚上,校园里就变得热闹起来。有情侣牵手走路的,有路上卖花的,有坐在路边椅子上聚群聊天的,还有下课正走回宿舍的路上的。印象中,我的大学几年,很少有几次这么细致的观察。更多的是匆匆的路过这条路,在教室和 阅读全文
posted @ 2021-06-05 16:33 猫七的blog 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 介绍 当你有面对一大堆特征手无足措的时候,这时候你应该先考虑生成一个特征效用度量: 特征效用度量又叫互信息,互信息与相关系数类似,都是衡量两个数值的关系的,但区别是相关系数只能检测线性关系,而互信息可以检测任何一种关系。 用法: 当互信息等于0时,数值之间是没有关系的。互信息取值不设上限,然而大于2 阅读全文
posted @ 2021-05-26 03:25 猫七的blog 阅读(521) 评论(0) 推荐(0) 编辑
摘要: hive 卡在stage99%往往是因为数据发生了倾斜 阅读全文
posted @ 2021-03-31 14:11 猫七的blog 阅读(35) 评论(0) 推荐(0) 编辑