文章分类 -  复习

余弦距离、欧氏距离和杰卡德相似性度量的对比分析
摘要:1、余弦距离 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。 余弦定理描述了三角形中任何一 阅读全文
posted @ 2019-05-10 01:24 feibin筱飞 阅读(169) 评论(0) 推荐(0)
Jaccard系数与Jaccard距离
摘要:Jaccard(杰卡德)系数主要用于计算样本间的相似度。Jaccard系数的计算方式为:样本交集个数和样本并集个数的比值,用J(A,B)表示。公式为:这里写图片描述jaccard系数相反的即为jaccard距离,用两个集合中不同元素所占元素的比例来衡量两个样本之间的相似度,公式为:这里写图片描述Ja 阅读全文
posted @ 2019-05-10 01:19 feibin筱飞 阅读(3633) 评论(0) 推荐(0)
华中农业大学大规模数据处理考试复习整理
摘要:什么是爬虫 网络爬虫是一种计算机自动程序,它能够自动建立到WEB服务器的网络连接,访问服务器上的某个页面或网络资源,获得其的内容,并按照页面上的超链接进行更多页面的获取。 爬虫分类方法 从爬虫抓取的链接范围看,可以分为基于整个WEB的爬虫和基于局部确定范围的爬虫。 从爬虫抓取的页面内容看,可以分为无 阅读全文
posted @ 2019-05-08 10:45 feibin筱飞 阅读(314) 评论(0) 推荐(0)