一.LT模型:线性阈值模型 思想:当一个已经激活的节点去试图激活邻居节点而没有成功时,其对邻居节点的影响力被累积而不是被舍弃,这个贡献直到节点被激活或传播过程结束为止。该过程称为‘影响累积’。 过程: 1.集合中每个点随机分配一个阈值(或者按一定分布分配),阈值越大越不容易受到影响,反之容易受到影响 Read More
posted @ 2018-10-24 16:43 巴拉巴拉程序猿 Views(7115) Comments(0) Diggs(0)
目前看到三篇比较不错的关于层次聚类的介绍,本文按 大致理解-详细介绍-代码实现 依次将他们罗列: 1.https://blog.csdn.net/qq_39388410/article/details/78240037 下面是主要内容,也就是对层次聚类的大概理解 2.https://blog.csd Read More
posted @ 2018-10-24 10:55 巴拉巴拉程序猿 Views(256) Comments(0) Diggs(0)
1.算法过程 a.随机选取k个初始点作为中心点 b.依次计算剩余所有点分别与哪个初始点距离较近,则该点属于哪个簇 c.移动中心点到现在的簇的中心 d.重复b,c两步,直到中心点不再变化算法结束 2.优缺点 优点:容易实现 缺点:可能收敛到局部最小值,大规模数据集上收敛速度较慢 3.代码使用中出现的问 Read More
posted @ 2018-10-24 10:33 巴拉巴拉程序猿 Views(483) Comments(0) Diggs(0)
可以看出来除了KNN以外其他算法都是聚类算法 1.knn/kmeans/kmeans++区别 先给大家贴个简洁明了的图,好几个地方都看到过,我也不知道到底谁是原作者啦,如果侵权麻烦联系我咯~~~~ knn模型的三要素:距离度量(如何计算样本之间的距离)、k值的选择(选择要判断的目标周围的几个样本去判 Read More
posted @ 2018-10-23 20:21 巴拉巴拉程序猿 Views(941) Comments(0) Diggs(0)
之前写了对word2vec的一些简单理解,实践过程中需要对其参数有较深的了解: class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_siz Read More
posted @ 2018-10-21 16:34 巴拉巴拉程序猿 Views(14057) Comments(0) Diggs(1)
一直以来感觉好多地方都吧Word Embedding和word2vec混起来一起说,所以导致对这俩的区别不是很清楚。 其实简单说来就是word embedding包含了word2vec,word2vec是word embedding的一种,将词用向量表示。 1.最简单的word embedding是 Read More
posted @ 2018-10-21 12:16 巴拉巴拉程序猿 Views(7732) Comments(0) Diggs(0)
了解主题模型,一般都会提到几种最基础的生成模型:Unigram model、Mixture of unigram,pLSA,接下来简单介绍一下他们之间的区别: 1.Unigram model 左图可知,一篇文档由词生成,每个词有其出现的概率,所有词概率的乘积即得到生成文档的概率。 2.Mixture Read More
posted @ 2018-10-20 22:37 巴拉巴拉程序猿 Views(3356) Comments(0) Diggs(0)
BTM的原理跟LDA很像,下面是该模型的概率图: 由该图可以看出来,与LDA的区别在于确定主题分布和词分布后相应地取两个词(而LDA只取一个,即类比常见的骰子说法:先投掷K面的骰子得到主题z,再根据相应的V面骰子,连续投掷两次,得到一对词汇),这俩词叫做biterm(就是在把一个文档分词之后,对这些 Read More
posted @ 2018-10-20 20:43 巴拉巴拉程序猿 Views(2547) Comments(2) Diggs(0)
看到一段对主题模型的总结,感觉很精辟: 如何找到文本隐含的主题呢?常用的方法一般都是基于统计学的生成方法。即假设以一定的概率选择了一个主题,然后以一定的概率选择当前主题的词。最后这些词组成了我们当前的文本。所有词的统计概率分布可以从语料库获得,具体如何以“一定的概率选择”,这就是各种具体的主题模型算 Read More
posted @ 2018-10-20 16:20 巴拉巴拉程序猿 Views(1031) Comments(0) Diggs(0)
虽然早就对NLP有一丢丢接触,但是最近真正对中文文本进行处理才深深感觉到自然语言处理的难度,主要是机器与人还是有很大差异的,毕竟人和人之间都是有差异的,要不然不会讲最难研究的人嘞 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~不华丽的分割线~~~~~~ Read More
posted @ 2018-10-18 18:45 巴拉巴拉程序猿 Views(6807) Comments(4) Diggs(2)