第一次个人编程作业

这个作业属于哪个课程 软件工程
这个作业要求在哪里 第一次个人编程作业
这个作业的目标 实现文本查重,制作PSP表格,学会程序测试

项目Github地址

https://github.com/AlanWuu/3118005428

PSP表格

计算模块接口的设计与实现过程

  • jieba分词库

使用精确模式,试图将句子最精确地切开,适合文本分析;jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式

  • 余弦相似性算法

对于文本匹配,属性向量A和B通常是文档中的词频向量。余弦相似性,可以被看作是在比较过程中把文件长度正规化的方法。

在信息检索的情况下,由于一个词的频率(TF-IDF权)不能为负数,所以这两个文档的余弦相似性范围从0到1。并且,两个词的频率向量之间的角度不能大于90°。

  • 算法优化

设置了停用词以及中文匹配

性能与功能测试

posted @ 2020-09-24 23:21  西瓜分你一半  阅读(115)  评论(0)    收藏  举报