Fork me on GitHub
摘要: 一.通常关于文本聚类也都是针对已有的一堆历史数据进行聚类,比如常用的方法有kmeans,dbscan等。如果有个需求需要针对流式文本进行聚类(即来一条聚一条),那么这些方法都不太适用了,当然也有很多其它针对流式数据进行动态聚类方法,动态聚类也有很多挑战,比如聚类个数是不固定的,聚类的相似阈值也不好设 阅读全文
posted @ 2019-10-16 22:12 石头木 阅读(6176) 评论(1) 推荐(1)
摘要: 一.实体识别作为信息抽取中基础的也是重要的一步,其技术可以分为三类,分别是其于规则的方法、其于统计模型的方法以及基于深度学习的方法。 基于规则的方法,主要依靠构建大量的实体抽取规则,一般由具有一定领域知识的专家手工构建。然后将规则与文本进行匹配,识别出实体。 基于统计的方法,需要一定的标注语料进行训 阅读全文
posted @ 2019-10-16 21:55 石头木 阅读(1494) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2019-08-17 18:10 石头木 阅读(11) 评论(0) 推荐(0)
摘要: 一.简单总结 其实相似度计算方法也是老生常谈,比如常用的有: 1.常规方法 a.编辑距离 b.Jaccard c.余弦距离 d.曼哈顿距离 e.欧氏距离 f.皮尔逊相关系数 2.语义方法 a.LSA b.Doc2Vec c.DSSM ...... 二.利用熵计算相似度 关于什么是熵、相对熵、交叉熵的 阅读全文
posted @ 2019-07-26 21:32 石头木 阅读(763) 评论(0) 推荐(1)
摘要: 这里先占个坑 阅读全文
posted @ 2019-07-25 11:35 石头木 阅读(332) 评论(0) 推荐(0)
摘要: 1.阶跃函数 ,值域{0,1} 2.sigmoid函数 ,值域(0,1) 3.relu函数 ,值域[0,+∞) 4.leaky relu函数 ,值域R 5.tanh函数 ,值域(-1,1) 6.softmax函数 ,值域[0,1] 7.画图程序 阅读全文
posted @ 2019-07-24 23:09 石头木 阅读(449) 评论(0) 推荐(0)
摘要: 一.smote相关理论 (1). SMOTE是一种对普通过采样(oversampling)的一个改良。普通的过采样会使得训练集中有很多重复的样本。 SMOTE的全称是Synthetic Minority Over-Sampling Technique,译为“人工少数类过采样法”。 SMOTE没有直接 阅读全文
posted @ 2019-07-24 22:02 石头木 阅读(1395) 评论(0) 推荐(0)
摘要: 一般来説,wide&deep在ltr中作为点击预估模型,是一种pointwise方式,但是我们可以将其改为pairwise方式进行实验。待续... 阅读全文
posted @ 2019-07-24 14:41 石头木 阅读(478) 评论(0) 推荐(0)
摘要: deepfm可作为点击预估模型,最后一层一般为一个sigmoid函数,在ltr中称为pointwise,我们可以对其进行改造,与wide&deep一样,可将其改为pairwise方式,或者可以像lambdamart一样融入ndcg这种评估指标。待续... 阅读全文
posted @ 2019-07-24 14:41 石头木 阅读(871) 评论(0) 推荐(0)
摘要: 一. LTR(learning to rank)经常用于搜索排序中,开源工具中比较有名的是微软的ranklib,但是这个好像是单机版的,也有好长时间没有更新了。所以打算想利用lightgbm进行排序,但网上关于lightgbm用于排序的代码很少,关于回归和分类的倒是一堆。这里我将贴上python版的 阅读全文
posted @ 2019-07-24 11:52 石头木 阅读(8190) 评论(8) 推荐(2)