随笔分类 -  自然语言处理

摘要:之前在实习时,teamleader想利用情感分析实现“公司绩效考核”问题,即从Boss对员工的评语中判断该员工该月的绩效值,属情感分析领域。 当时使用最简单的基于情感词典的方法解决,借鉴了这篇文章,在此基础上对其进行修改,先讲思路描述如下。 1 词典准备 情感词典(BosonNLP情感词典) 停用词 阅读全文
posted @ 2018-11-08 16:18 祁俊辉 阅读(2416) 评论(0) 推荐(0) 编辑
摘要:1 哈希表(Hash Table) 说明:一种特殊的数据结构。 特点:可以快速实现查找、插入和删除。 1.1 基本思想 数组的特点:寻址容易,但插入和删除困难。 链表的特点:寻址困难,但插入和删除容易。 哈希表即结合以上两个的优点,创造而成。 1.2 基本概念 哈希表:即散列表,是根据关键字(码值) 阅读全文
posted @ 2018-10-30 20:12 祁俊辉 阅读(534) 评论(0) 推荐(0) 编辑
摘要:1 算法介绍 该算法是一种用于资讯检索和资讯探勘的常用加权技术。 该算法是一种统计方法,用以评估一字词对于一个文本集(语料库)中的其中一份文本的重要程度。 注意:字词的重要性随着它在文本中出现的次数成比增加,但同时会随着它在语料库中出现的频率成反比下降。 2 原理 2.1 词频(term frequ 阅读全文
posted @ 2018-10-28 15:47 祁俊辉 阅读(1097) 评论(0) 推荐(0) 编辑
摘要:1 余弦定理与新闻分类 余弦定理应用最广泛的应该就是新闻分类了,前段时间看算法觉得挺简单的没去实现,近几日无事便写了一个余弦定理程序,发现并非想象那般,有很多有意思的发现。 先说一下余弦定理判断相似度的步骤: 通常在第三步骤特征向量的长度是所有词的总和(大概是64000),但我觉得向量太长了有那么多 阅读全文
posted @ 2018-02-14 21:00 祁俊辉 阅读(404) 评论(0) 推荐(0) 编辑
摘要:@祁俊辉,2017年6月22日测试。 1 说明 本程序以关于SimHash算法的实现及测试V4.0为基础,利用JSP添加JavaBean接口,改为网页版; 因为在网页版比较相似度时,生成txt文档会耗费一定的时间,而且在Tomcat发布后路径不方便控制,所以取消txt文档的输入输出,全程以字符串形式 阅读全文
posted @ 2018-02-14 20:53 祁俊辉 阅读(3611) 评论(0) 推荐(0) 编辑
摘要:@祁俊辉,2017年6月15日测试。 1 说明 本程序衔接关于SimHash算法的实现及测试V3.0; 改进1:增加TF-IDF算法,用于计算词权重(本地新增100篇txt文本库); 改进2:各个程序衔接,详情见流程图。 2 程序 目前项目中存在4个类,分别是分词“FenCi”,计算某个词在多少个文 阅读全文
posted @ 2018-02-14 20:49 祁俊辉 阅读(2162) 评论(0) 推荐(0) 编辑
摘要:@祁俊辉,2017年6月9日测试。 1 说明 本文章衔接关于SimHash算法的实现及测试V2.0; 本文章与利用IK Analyzer分词(txt输入输出)相结合; 本程序先使用利用IK Analyzer分词(txt输入输出)分词程序对文件分词后输出分词后的文件,然后使用本程序读取该文件,再进行S 阅读全文
posted @ 2018-02-14 20:40 祁俊辉 阅读(701) 评论(0) 推荐(0) 编辑
摘要:@祁俊辉,2017年6月4日测试。 1 说明 本文章衔接关于SimHash算法的实现及测试V1.0; 将Hash函数更新为MD5_Hash函数(二进制为128位); 个人感觉用海明距离并不能只管说明两篇文章(字符串)相似,故添加相似度,但对于相似度的计算只是利用最简单的,有很多不妥之处。 2 MD5 阅读全文
posted @ 2018-02-14 20:14 祁俊辉 阅读(1488) 评论(0) 推荐(0) 编辑
摘要:@祁俊辉,2017年5月21日测试。 1 说明 本程序是简化版的SimHash算法(分词暂为手动分词,每个词的权重都设为1); 本程序是基于《数学之美 》第二版第16章所介绍的原理展开; 本篇文章将计算多个字符串的SimHash值,并将对其分析; 本篇文章暂不介绍SimHash算法的原理,因为网上的 阅读全文
posted @ 2018-02-14 20:01 祁俊辉 阅读(741) 评论(0) 推荐(0) 编辑
摘要:1 说明 利用IK包分词较为便捷,该分词方法为正向匹配,故选此方法。 使用程序时需要导入分词包。 本程序需要用到的分词包已上传至附件。 本程序的输入输出文件名,请在主函数中更改。 2 程序 3 结果 阅读全文
posted @ 2018-02-12 21:14 祁俊辉 阅读(475) 评论(0) 推荐(1) 编辑
摘要:1 import java.io.IOException; 2 import java.io.StringReader; 3 import org.apache.lucene.analysis.Analyzer; 4 import org.apache.lucene.analysis.TokenSt 阅读全文
posted @ 2018-02-12 21:06 祁俊辉 阅读(305) 评论(0) 推荐(0) 编辑
摘要:1 import java.util.*; 2 3 public class UpdateStu { 4 public static void main(String[] args) { 5 //创建HashMap集合 6 Map map = new HashMap(); 7 //往集合中添加数据 8 ma... 阅读全文
posted @ 2018-02-12 21:04 祁俊辉 阅读(187) 评论(0) 推荐(0) 编辑
摘要:1 RSHash 2 BKDRHash 3 DJBHash 4 JSHash 5 SDBMHash 阅读全文
posted @ 2018-02-12 20:39 祁俊辉 阅读(2747) 评论(3) 推荐(2) 编辑
摘要:1 SimHash简介 过程图为: 2 算法几何意义及原理 2.1 几何意义 这个算法的几何意义非常明了。它首先将每一个特征映射为f维空间的一个向量,这个映射规则具体是怎样并不重要,只要对很多不同的特征来说,它们对所对应的向量是均匀随机分布的,并且对相同的特征来说对应的向量是唯一的就行。比如一个特征 阅读全文
posted @ 2018-02-12 20:33 祁俊辉 阅读(877) 评论(0) 推荐(0) 编辑