随笔分类 -  数据分析

摘要:# transformers入门使用 HuggingFace是一个开源社区,它提供了先进的NLP模型,数据集,以及其他工具。 模型:https://huggingface.co/models 数据集:https://huggingface.co/datasets 主要的模型 - 自然回归: `GPT 阅读全文
posted @ 2023-06-02 15:17 三叶草body 阅读(1252) 评论(0) 推荐(0)
摘要:余弦相似度精度问题引起的偏差 余弦相似度值不等于1(实际是等于1) 两个向量$a$和$b$是相同的,余弦相似度值应该是1,但是通过sklearn和numpy计算的结果却不等于1,会出现大于1或者小于1的情况,实际上余弦值应该是在[-1, 1]这个区间内的。 使用sklearn.metrics.pai 阅读全文
posted @ 2023-05-17 17:20 三叶草body 阅读(994) 评论(0) 推荐(0)
摘要:sklearn之主成分分析pca 在scikit-learn中,CA是主成分分析的缩写。主成分分析是一种常用的线性降维技术,可以将多维数据集降到较低的特征维度,并保留数据集的大部分特征信息。在sklearn中,使用PCA需要引入PCA模块,并通过实例化一个PCA对象来使用它的方法和属性。例如,可以使 阅读全文
posted @ 2023-05-17 12:10 三叶草body 阅读(250) 评论(0) 推荐(0)
摘要:余弦相似性 介绍 余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。 cosine_similarity是一种度量两个非零向量之间夹角的相似性的方法。它的计算方法如下: $cosine_similarit 阅读全文
posted @ 2023-05-17 11:36 三叶草body 阅读(742) 评论(0) 推荐(0)
摘要:轮廓系数(Silhouette Coefficient Index) 轮廓系数(Silhouette Coefficient Index)是一种聚类评估指标,用于评估数据聚类的效果。其取值范围在[-1, 1]之间,指标值越大表示聚类结果聚类效果越好。 具体来说,轮廓系数既要考虑聚类结果的紧密性,又要 阅读全文
posted @ 2023-04-18 15:14 三叶草body 阅读(8710) 评论(0) 推荐(1)
摘要:Hellinger距离 介绍 Hellinger距离是一种用于度量概率分布之间相似度的指标。 在统计学和信息论领域中,它被广泛应用于分类、聚类、图像识别、文本分类等方面。 Hellinger距离又称为Bhattacharyya距离的平方根,它是两个概率分布之间的欧几里德距离的一半,其取值范围在0到1 阅读全文
posted @ 2023-04-07 13:38 三叶草body 阅读(3050) 评论(0) 推荐(0)
摘要:1 k-prototypes聚类 https://github.com/nicodv/kmodes.git 1 k-prototypes算法 K-prototype是K-means与K-modes的一种集合形式,适用于数值类型与字符类型集合的混合型数据。 k-prototypes算法在聚类的过程中, 阅读全文
posted @ 2022-02-10 14:19 三叶草body 阅读(5747) 评论(0) 推荐(0)
摘要:import matplotlib.pyplot as plt # import matplotlib import rcParams # 设置显示中文字体 plt.rcParams["font.sans-serif"] = ["SimHei"] # 设置正常显示符号 plt.rcParams["a 阅读全文
posted @ 2022-02-07 11:53 三叶草body 阅读(119) 评论(0) 推荐(0)
摘要:Levenshtein距离 莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。 指两个字串之間,由一个转成另一个所需的最少编辑操作次数。 允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,刪除一个字符。 GitHub 提供了计算莱文斯坦距离的包。 安装方法: pip inst 阅读全文
posted @ 2021-11-11 15:28 三叶草body 阅读(1923) 评论(0) 推荐(0)