第一次个人编程作业
| 这个作业属于哪个课程 | 软件工程 |
|---|---|
| 这个作业要求在哪里 | 第一次个人编程作业 |
| 这个作业的目标 | 实现文本查重,制作PSP表格,学会程序测试 |
项目Github地址
https://github.com/AlanWuu/3118005428
PSP表格

计算模块接口的设计与实现过程
- jieba分词库
使用精确模式,试图将句子最精确地切开,适合文本分析;jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式
- 余弦相似性算法

对于文本匹配,属性向量A和B通常是文档中的词频向量。余弦相似性,可以被看作是在比较过程中把文件长度正规化的方法。
在信息检索的情况下,由于一个词的频率(TF-IDF权)不能为负数,所以这两个文档的余弦相似性范围从0到1。并且,两个词的频率向量之间的角度不能大于90°。
- 算法优化
设置了停用词以及中文匹配

性能与功能测试



浙公网安备 33010602011771号