个人项目 论文查重

这个作业属于哪个课程 | https://edu.cnblogs.com/campus/gdgy/Networkengineering1834/
-|-|-
这个作业要求在哪里 | https://edu.cnblogs.com/campus/gdgy/Networkengineering1834/homework/11146
这个作业的目标 | 实现论文查重,记录PSP表格

1.github地址

https://github.com/HUAHUAXIA10086/personalJob3218005353.git

2.PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 60 80
Estimate 估计这个任务需要多少时间 40 50
Development 开发 300 420
Analysis 需求分析 (包括学习新技术) 60 120
Design Spec 生成设计文档 0 0
Design Review 设计复审 0 0
Coding Standard 代码规范 (为目前的开发制定合适的规范) 30 60
Design 具体设计 60 60
Coding 具体编码 240 480
Code Review 代码复审 30 30
Test 测试(自我测试,修改代码,提交修改) 60 60
Reporting 报告 60 60
Test Report 测试报告 20 20
Size Measurement 计算工作量 10 10
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 30 30
Total 合计 1000 1480

3.计算模块接口的设计与实现过程

4.算法:simHash算法

SimHash为Google处理海量网页的采用的文本相似判定方法。该方法的主要目的是降维,即将高维的特征向量映射成f-bit的指纹,通过比较两篇文档指纹的汉明距离来表征文档重复或相似性。simhash算法分为5个步骤:分词、hash、加权、合并、降维

5.单元测试


5.性能测试



6.运行结果

posted on 2020-09-25 02:27  HUAHUAXIA  阅读(124)  评论(0编辑  收藏  举报